# ПЛАТЕЖЕСПОСОБНОСТЬ КЛИЕНТОВ БАНКА

**Заказчик** — кредитный отдел банка.

Входные данные от банка — статистика о платёжеспособности клиентов.

**Цель проекта** разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок:
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

**Ход проекта:**

Данные о платежеспособности клиентов представлены в файле `data.csv`. Качество, полученных данных неизвестно. Поэтому перед использованием необходимо ознакомиться с информацией.

**Разделим проект на три этапа:**
* Обзор представленной информации
* Предобработка данных
* Ответы на вопросы

# Обзор представленной информации

Обзор исходных данных банка о платежеспособности клиентов.
- Импортируем библиотеку `pandas` и используем сокращение `pd`.
- Прочитаем файл `data.csv` из папки `/datasets` и сохраним его в переменной `df`
- Выведем на экран первые 10 строк таблицы

In [1]:
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
df.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
df.tail(50) # посмотрим значения конца таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21475,0,365213.306266,52,среднее,1,женат / замужем,0,F,пенсионер,1,48239.310903,свой автомобиль
21476,0,-2539.502794,52,высшее,0,женат / замужем,0,M,компаньон,0,527452.833253,операции со своей недвижимостью
21477,0,-1628.43235,54,среднее,1,гражданский брак,1,F,сотрудник,0,71733.90647,на проведение свадьбы
21478,1,-921.332705,28,Высшее,0,женат / замужем,0,F,сотрудник,0,181185.86479,свой автомобиль
21479,0,-685.565994,26,среднее,1,женат / замужем,0,M,сотрудник,0,171504.352534,покупка жилья для сдачи
21480,0,-8799.354717,45,высшее,0,Не женат / не замужем,4,F,сотрудник,0,146945.045428,ремонт жилью
21481,0,-829.519627,30,неоконченное высшее,2,гражданский брак,1,M,сотрудник,0,440470.880955,на покупку автомобиля
21482,1,-865.081118,25,среднее,1,женат / замужем,0,F,компаньон,0,94065.031245,свой автомобиль
21483,2,-2917.035232,38,начальное,3,гражданский брак,1,F,сотрудник,1,77417.56052,операции с недвижимостью
21484,3,-968.718123,35,среднее,1,женат / замужем,0,M,сотрудник,0,95667.452395,жилье


In [3]:
df.info() # посмотрим общую информацию по таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице двенадцать столбцов.

Тип данных в столбцах:
* `children`, `dob_years`, `education_id`, `family_status_id`, `debt` - **int64**
* `days_employed`, `total_income` - **float64**
* `education`, `family_status`, `gender `, `income_type`, `purpose` - **object**

**Описание данных**
1. `children` — количество детей в семье
2. `days_employed` — общий трудовой стаж в днях
3. `dob_years` — возраст клиента в годах
4. `education` — уровень образования клиента
5. `education_id` — идентификатор уровня образования
6. `family_status` — семейное положение
7. `family_status_id` — идентификатор семейного положения
8. `ender` — пол клиента
9. `income_type` — тип занятости
10. `debt` — имел ли задолженность по возврату кредитов
11. `total_income` — ежемесячный доход
12. `purpose` — цель получения кредита

Замечания по данным в таблице:

- Имеются значения записанные вверхнем и нижнем регистре в столбце `education`.
- В столбце `days_employed` имеются аномалии, это отрицательные значения и очень большие числа, возможно указаны часы, а не дни;
- Количество значений в столбцах различаются, а значит есть пропущенные значения;
- Столбец `days_employed` имеет дробную часть(дни не могут быть дробными) и столбец `total_income` имеет дробные числа, которые можно округлить до целых;


В каждой строке таблицы содержиться информация о заемщиках. По условию проекта известно, что основными данными являются: количество детей, семейное положение, доход, образование, информация по задолжности, цель кредита, тип занятости. Дополнительными: трудовой стаж, пол, возраст и идентификаторы.

**Выводы:**
Общие данные просмотрены, основные проблемы обозначены. Чтобы совершать какие-либо действия с данными необходимо устранить все недочеты.


# Предобработка данных

## Перевод значений в единый регистр

Приведем общие значения к единому регистру.

In [4]:
df['education'] = df['education'].str.lower()
df['family_status'] = df['family_status'].str.lower()
df['income_type'] = df['income_type'].str.lower()
df['purpose'] = df['purpose'].str.lower()
df.head(10) # посмотрим, что получилось

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


## Корректировка аномалий

Посмотрим по всем столбцам уникальные значения

In [5]:
df['children'].unique() # видим, что есть некорректные значения

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [6]:
df['children'] = df['children'].replace(-1, 0) # заменим отрицательное число на ноль
df['children'] = df['children'].replace(20, 2) # заменим 20 на 2, т.к. возможна опечатка
df['children'].unique() # проверим, что получилось

array([1, 0, 3, 2, 4, 5])

<div class="alert alert-block alert-success">
<b>Комментарий ревьюера✅:</b> Все верно😉</div>

<div class="alert alert-block alert-info">
<b>Комментарий студента:</b>
☑️
</div>

In [7]:
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

In [8]:
mean = int(df['dob_years'][df['dob_years'] != 0].mean()) # найдем среднее значение
df['dob_years'] = df['dob_years'].replace(0, mean) # заменим 0 на среднее значение
df['dob_years'].unique() # посмотрим, что получилось

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

<div class="alert alert-block alert-success">
<b>Комментарий ревьюера✅:</b> Тут все хорошо🔥 </div>

<div class="alert alert-block alert-info">
<b>Комментарий студента:</b>
☑️
</div>

In [9]:
df['education'].unique() # в порядке

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [10]:
df['education_id'].unique() # в порядке

array([0, 1, 2, 3, 4])

In [11]:
df['family_status'].unique() # в порядке

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [12]:
df['family_status_id'].unique() # в порядке

array([0, 1, 2, 3, 4])

In [13]:
df['gender'].unique() # есть неизвестное значение XNA

array(['F', 'M', 'XNA'], dtype=object)

In [14]:
df[df['gender'] == 'XNA'].head() # посмотрим, что это за строка

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,-2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


Из представленной информации видно, что клиенту 24 года, трудовой стаж около, 6.5 лет, имеет неоконченное высшее образование, значит он одновременно работает и учится, а также имеет гражданский брак, нет детей и является компаньоном в компании. Запишем мужчину.

In [15]:
df.loc[df['gender'] == 'XNA', 'gender'] = 'M' # заменим, неизвесное значение
df['gender'].unique() # посмотрим, что получилось

array(['F', 'M'], dtype=object)

In [16]:
df['income_type'].unique() # в порядке

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [17]:
df['debt'].unique() # в порядке

array([0, 1])

In [18]:
df['purpose'].unique() # в порядке

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

## Заполнение пропущенных значений

В столбцах `days_employed` и `total_income` имеются пропущенные значения NAN, определяющие числовое значение с плавающей точкойю Значения NaN можно использовать в математических операциях (относится к вещественным числам `float`).

Считаю, что пропущенные значения в столбцах являются `Случайными`, т.к. значение зависит от других данных. К примеру, доход можно сравнить с образованием, а стаж работы - с возрастом клиента.

Проверим, какую долю составляют пропущенные значения в каждом из столбцов с пропусками.

In [19]:
df.isna().sum() # количество пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [20]:
gen_to_priv = 2174/21525
f'Процент пропущенных значений {gen_to_priv:.1%}'

'Процент пропущенных значений 10.1%'

Пропущенные значения составляют `10.1%`, что является значительным количеством для искажения итоговых показателей.

Поэтому для получения точных показателей необходимо пропуски заполнить данными. Чтобы определиться какой метод использовать, необходимо посмотреть разброс данных.

In [21]:
dfs = df.dropna(subset = ['total_income', 'days_employed'])
dfs.sort_values(by = 'total_income').reset_index(drop = True).head() # увидим первые пять значений дохода

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,359219.059341,57,среднее,1,женат / замужем,0,F,пенсионер,1,20667.263793,недвижимость
1,0,369708.589113,37,среднее,1,гражданский брак,1,M,пенсионер,0,21205.280566,заняться высшим образованием
2,1,-3642.820023,52,среднее,1,женат / замужем,0,M,сотрудник,0,21367.648356,приобретение автомобиля
3,0,359726.104207,68,среднее,1,гражданский брак,1,M,пенсионер,0,21695.101789,на проведение свадьбы
4,0,346602.453782,61,среднее,1,женат / замужем,0,F,пенсионер,0,21895.614355,недвижимость


In [22]:
dfs.sort_values(by = 'total_income').reset_index(drop = True).tail() # увидим последние пять значений дохода

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
19346,0,-5734.127087,42,высшее,0,гражданский брак,1,M,компаньон,0,1711309.0,сыграть свадьбу
19347,0,-4719.273476,61,среднее,1,не женат / не замужем,4,F,сотрудник,0,1715018.0,покупка жилья для семьи
19348,1,-5248.554336,35,среднее,1,гражданский брак,1,M,сотрудник,0,1726276.0,дополнительное образование
19349,1,-2577.664662,39,высшее,0,женат / замужем,0,M,компаньон,1,2200852.0,строительство недвижимости
19350,0,-1477.438114,44,высшее,0,женат / замужем,0,M,компаньон,0,2265604.0,ремонт жилью


Из полученного диапазона значений видно, что лучше использовать `Медиану` (`метод median()`).

**Медиана** - это такое число в диапазоне, где одна половина больше, а другая половина меньше. Заполнение пропусков медианным значением - лучшее решение, т.к. будут заполняться более точными значениями по сравнению со средними значениями.

Откорректируем значения столбца `days_employed`.

- переведем отрицательные значения в положительные;
- часы переведем в дни.

In [23]:
def change_values (cell): 
    if cell > 0:
        cell = cell / 24 # значения больше 0 делим на 24 часа
        return cell
    elif cell < 0:   
        cell = cell * -1 # значения меньше 0 умножаем на -1
        return cell
    else:
        return cell

df['days_employed'] = df['days_employed'].apply(change_values)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Всё равно после перевода "часы" значений в "дни" значения в столбце стаж работы число довольно большие.

Будем заполнять пустые значения в столбце стаж работы по отношению к типу занятости.

In [24]:
def padding_value(income_type): # функция для вычисления медианы по income_type
    median = df[df['income_type'] == income_type]['days_employed'].median() # фильтруем значения по income_type
    return median

nan_income_type = df[df['days_employed'].isna()]['income_type'].unique() # переменная проходит по income_type, которые имеют пустые значения


for income_type in nan_income_type:
        median = padding_value(income_type)
        row = (df['income_type'] == income_type) & (df['days_employed'].isna()) 
        df.loc[row, 'days_employed'] = df.loc[row, 'days_employed'].fillna(median) # добавляем медиану в пустые значения по фильтру
df.info() # смотрим заполненность пустых значений

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [25]:
# Заполнение пустых значений в столбце total_income аналогичен days_employed только для фильтрации используем еще один столбец education
def padding_value(income_type, education):
    median = df[(df['income_type'] == income_type) & (df['education'] == education)]['total_income'].median()
    return median

nan_income_type = df[df['total_income'].isna()]['income_type'].unique()
nan_education = df[df['total_income'].isna()]['education'].unique()

for income_type in nan_income_type:
    for education in nan_education:
        median = padding_value(income_type, education)
        row = (df['income_type'] == income_type) & (df['education'] == education) & (df['total_income'].isna())
        df.loc[row, 'total_income'] = df.loc[row, 'total_income'].fillna(median)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Изменение типа данных



In [26]:
df['days_employed'] = df['days_employed'].astype('int') # изменили тип данных с помощью astype() на целочисленный
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int64  
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


In [27]:
df['total_income'] = df['total_income'].astype('int') # изменили тип данных с помощью astype() на целочисленный
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


## Обработка дубликатов

Используем метод `duplicated()`, который возвращает количество дубликатов. Метод `value_counts()` работает со столбцами перебирая уникальное значение и подсчитывая частоту встречаемости.

Дубликаты могут появляться потому, что было заведено несколько заявок на кредит или ошибочное дублирование строк.

In [28]:
df.duplicated().sum() # количество повторяющихся строк

71

In [29]:
dfn = df[df.duplicated() == True] # посмотрим, что за повторяющиеся строки
dfn.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,1574,41,среднее,1,женат / замужем,0,F,сотрудник,0,136555,покупка жилья для семьи
3290,0,15217,58,среднее,1,гражданский брак,1,F,пенсионер,0,114842,сыграть свадьбу
4182,1,1574,34,высшее,0,гражданский брак,1,F,сотрудник,0,165640,свадьба
4851,0,15217,60,среднее,1,гражданский брак,1,F,пенсионер,0,114842,свадьба
5557,0,15217,58,среднее,1,гражданский брак,1,F,пенсионер,0,114842,сыграть свадьбу


In [30]:
df = df.drop_duplicates().reset_index(drop = True) # Удалим дубликаты
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21454 non-null  int64 
 1   days_employed     21454 non-null  int64 
 2   dob_years         21454 non-null  int64 
 3   education         21454 non-null  object
 4   education_id      21454 non-null  int64 
 5   family_status     21454 non-null  object
 6   family_status_id  21454 non-null  int64 
 7   gender            21454 non-null  object
 8   income_type       21454 non-null  object
 9   debt              21454 non-null  int64 
 10  total_income      21454 non-null  int64 
 11  purpose           21454 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


## Создадим два датафрейма (Словари)

In [31]:
df_fst = df[['education', 'education_id']] # создадим первый словарь
df_fst = df_fst.drop_duplicates().reset_index(drop = True) # удалим повторяющиеся строки
df_fst

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [32]:
df_sec = df[['family_status', 'family_status_id']] # создадим второй словарь
df_sec = df_sec.drop_duplicates().reset_index(drop = True) # удалим повторяющиеся строки
df_sec

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


In [33]:
del df['education'] # удалим столбцы из основной таблицы
del df['family_status']
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21454 non-null  int64 
 1   days_employed     21454 non-null  int64 
 2   dob_years         21454 non-null  int64 
 3   education_id      21454 non-null  int64 
 4   family_status_id  21454 non-null  int64 
 5   gender            21454 non-null  object
 6   income_type       21454 non-null  object
 7   debt              21454 non-null  int64 
 8   total_income      21454 non-null  int64 
 9   purpose           21454 non-null  object
dtypes: int64(7), object(3)
memory usage: 1.6+ MB


In [34]:
df['income_type'].value_counts() # увидим какие и сколько уникальных значений

сотрудник          11084
компаньон           5078
пенсионер           3829
госслужащий         1457
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

## Категоризация ежемесячного дохода

In [35]:
def category(total_income): # функция, которая возвращает диапазон по значению ежемесячного дохода
    if total_income < 30000:
        return 'категория E (до 30 тыс.)'
    if 30000 < total_income < 50000:
        return 'категоря D (от 30 тыс. до 50 тыс.)'
    if 50000 < total_income < 200000:
        return 'категория C (от 50 тыс. до 200 тыс.)'
    if 200000 < total_income < 1000000:
        return 'категория B (от 200 тыс. до 1 млн.)'
    else:
        return 'категория A более 1 млн.'
df['total_income_category'] = df['total_income'].apply(category) # с помощью метода apply() добавли в таблицу столбец и заполнили возвратными значениями из функции
df['total_income_category'].value_counts(ascending = False)

категория C (от 50 тыс. до 200 тыс.)    15829
категория B (от 200 тыс. до 1 млн.)      5228
категоря D (от 30 тыс. до 50 тыс.)        350
категория A более 1 млн.                   25
категория E (до 30 тыс.)                   22
Name: total_income_category, dtype: int64

**Вывод:**
Можно сказать, что основная часть заемщиков имеет доход от 50 тыс. до 200 тыс., треть от основных заемщиков - от 200 тыс. до 1 млн. и мало интересен кредит людям которые имеют доход до 30 тыс. и свыше 1 млн.

## Категоризация цели на кредит

In [36]:
df['purpose'].value_counts() # увидим какие и сколько уникальных значений

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Из списка можно выделить группы взятия кредитов:
- Свадьба
- Автомобиль
- Образование
- Недвижимость

In [37]:
def category(row): # функция возвращает значение при условии, если находит определенное значение в строке
    if 'свадьб' in row:
        return 'проведение свадьбы'
    if 'автомобил' in row:
        return 'операции с автомобилем'
    if 'образован' in row:
        return 'получение образования'
    else:
        return 'операции с недвижимостью'

df['purpose_category'] = df['purpose'].apply(category) # с помощью метода apply() добавли в таблицу столбец и заполнили возвратными значениями из функции
df['purpose_category'].value_counts()

операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

**Вывод:**
Большая часть людей берут кредит для покупки жилья и в равной степени для покупки автомобиля и получения образования.

## Категоризация количества детей

In [38]:
df['children'].value_counts() # увидим какие и сколько уникальных значений

0    14138
1     4808
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [39]:
def category(row):
    if row == 0:
        return 'нет детей'
    if row == 1:
        return '1 ребенок'
    if row == 2:
        return '2 ребенка'
    else:
        return 'многодетная семья'

df['children_category'] = df['children'].apply(category)
df['children_category'].value_counts()

нет детей            14138
1 ребенок             4808
2 ребенка             2128
многодетная семья      380
Name: children_category, dtype: int64

**Вывод:**
Кредиты берут в основном те, кто не имеет детей и треть от основных заемщиков составляют люди, имеющие одного ребенка.

# Ответы на вопросы

In [40]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,категория B (от 200 тыс. до 1 млн.),операции с недвижимостью,1 ребенок
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,категория C (от 50 тыс. до 200 тыс.),операции с автомобилем,1 ребенок
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,категория C (от 50 тыс. до 200 тыс.),операции с недвижимостью,нет детей
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,категория B (от 200 тыс. до 1 млн.),получение образования,многодетная семья
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,категория C (от 50 тыс. до 200 тыс.),проведение свадьбы,нет детей


## Есть ли зависимость между количеством детей и возвратом кредита в срок?

Выведем сводную таблицу с детьми по возврату кредита с помощью метода `pivot_table()`.

In [41]:
def percent(row): # функция по выводу процента задолжности к кредиту
    x = row.sum() / row.count() * 100
    return x
df_chil = df.pivot_table(index = 'children_category', values = 'debt', aggfunc = ['count', 'sum', percent])
df_chil = df_chil.sort_values(by = ('percent', 'debt')) # отсортируем значения процента по возрастанию
df_chil

Unnamed: 0_level_0,count,sum,percent
Unnamed: 0_level_1,debt,debt,debt
children_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
нет детей,14138,1064,7.525817
многодетная семья,380,31,8.157895
1 ребенок,4808,444,9.234609
2 ребенка,2128,202,9.492481


**Вывод:**
Видно, что не очень большой разброс по возникающей задолжности. Клиенты не имеющие детей с меньшим процем задолжности по отношению к тем, кто имеет детей. А вот у многодетных семей значение по невозврату почти на одном уровне с не имеющими детей, хотя количество взятых кредов гораздо меньше.

## Есть ли зависимость между семейным положением и возвратом кредита в срок?

Выведем сводную таблицу с семейным положением по возврату кредита.

In [42]:
df_status = df.merge(df_sec, on = 'family_status_id', how = 'left') # объедини таблицы по столбцу family_status_id
df_status = df_status.pivot_table(index = 'family_status', values = 'debt', aggfunc = ['count', 'sum', percent])
df_status = df_status.sort_values(by = ('percent', 'debt'))
df_status

Unnamed: 0_level_0,count,sum,percent
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
вдовец / вдова,959,63,6.569343
в разводе,1195,85,7.112971
женат / замужем,12339,931,7.545182
гражданский брак,4151,388,9.347145
не женат / не замужем,2810,274,9.75089


**Вывод:**
Интересно, но наименьший процент задолжности имеют люди, которые в разводе (7,1%) или потерявщие супруга/супругу (6,6%). А вот наибольшую возможность задержать выплаты имею люди со статусом гражданский брак (9,3%) и не женат / не замужем (9,7%).

## Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Выведем сводную таблицу с уровнем дохода по возврату кредита.

In [43]:
df_tinc = df.pivot_table(index = 'total_income_category', values = 'debt', aggfunc = ['count', 'sum', percent])
df_tinc = df_tinc.sort_values(by = ('percent', 'debt'))
df_tinc

Unnamed: 0_level_0,count,sum,percent
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
категоря D (от 30 тыс. до 50 тыс.),350,21,6.0
категория B (от 200 тыс. до 1 млн.),5228,364,6.96251
категория A более 1 млн.,25,2,8.0
категория C (от 50 тыс. до 200 тыс.),15829,1352,8.541285
категория E (до 30 тыс.),22,2,9.090909


**Вывод:**
По результатам таблицы можно сказать, что наименьшая вероятность просрочки у клиентов категории D с доходом до 50 тыс.(6%) и категорией B, имеющие доход от 200 тыс. до 1 млн.(6.9%). При этом эти две категории не самые большие, даже в сумме, по оформлению кредита. И большая вероятность задолжности у заемщиков, имеющих доход до 30 тыс.

## Как разные цели кредита влияют на его возврат в срок?

Выведем сводную таблицу с назначением кредита по его возврату.

In [44]:
df_purpose = df.pivot_table(index = 'purpose_category', values = 'debt', aggfunc = ['count', 'sum', percent])
df_purpose = df_purpose.sort_values(by = ('percent', 'debt'))
df_purpose

Unnamed: 0_level_0,count,sum,percent
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,10811,782,7.233373
проведение свадьбы,2324,186,8.003442
получение образования,4013,370,9.220035
операции с автомобилем,4306,403,9.359034


**Вывод:**
По результатам выгоднее всего давать кредиты на недвижимость, где наименьший % просрочки по сравнению с выдачей кредитов на образование и покупку автомобиля.

# Итоги проекта


Напомним `цель проекта`, ответив на четыре вопроса:

1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?


1. Влияние наличия детей в семье на возврат кредита.


- нет детей - 7.5%
- многодетная семья - 8.2%
- 1 ребенок - 9.2%
- 2 ребенка - 9.5%

      * Видно, что не очень большой разброс по возникающей задолжности. Клиенты не имеющие детей с меньшим процем задолжности по отношению к тем, кто имеет детей. А вот у многодетных семей значение по невозврату почти на одном уровне с не имеющими детей, хотя количество взятых кредов гораздо меньше.


2. Влияние семейного положения на возврат кредита.


- вдовец/вдова - 6.6%
- в разводе - 7.1%
- женат/замужем	- 7.5%
- гражданский брак - 9.3%
- не женат/не замужем - 9.7%

      * Интересно, но наименьший процент задолжности имеют люди, которые в разводе (7,1%) или потерявщие супруга/супругу (6,6%). А вот наибольшую возможность задержать выплаты имею люди со статусом гражданский брак (9,3%) и не женат / не замужем (9,7%).
  
  
3. Влияние уровня дохода на возврат кредита.


- категоря D (от 30 тыс. до 50 тыс.) - 6%
- категория B (от 200 тыс. до 1 млн.) - 6.9%
- категория A (более 1 млн.) - 8%
- категория C (от 50 тыс. до 200 тыс.) - 8.5%
- категория E (до 30 тыс.) - 9%

      * По результатам таблицы можно сказать, что наименьшая вероятность просрочки у клиентов категории D с доходом до 50 тыс.(6%) и категорией B, имеющие доход от 200 тыс. до 1 млн.(6.9%). При этом эти две категории не самые большие, даже в сумме, по оформлению кредита. И большая вероятность задолжности у заемщиков, имеющих доход до 30 тыс.
 
 
4. Влияние цели креди на его возврат.


- операции с недвижимостью - 7.2%
- проведение свадьбы - 8%
- получение образования - 9.2%
- операции с автомобилем - 9.3%

      * По результатам выгоднее всего давать кредиты на недвижимость, где наименьший % просрочки по сравнению с выдачей кредитов на образование и покупку автомобиля.

Подводя итоги можно выделить, что разброс по возможности невозврата креди заемщики, имеющие детей = `2%`, по семейному положению = `3.1%`, имеющие доход = `3.1%`, по цели кредита = `2.1%`, также имеют и похожий разброс значений. И всё же стоит отметить, что наибольшее влияние на вероятность проблем свозвратом кредита показывает семейное положение, а именно заемщики не состоящие в браке. Затем стоит обратить внимание на заемщиков, которые имеют двух детей. И наименьшее влияние оказывают заемщики с целью креди и уровнем дохода. 

Самым показательным заемщиком можно отметить того, кто не состоит в браке, имеет двух детей, взял кредит для покупки автомобиля и находиться в категории людей, имеющие доход до 30 тыс. руб.

Некоторые столбцы в проекте совсем не использовали можно было их удалить из таблицы и не совершать над ними действий.

