# Исследование надежности заемщиков


***Описание проекта***

В моем распоряжении имеются данные кредитного отдела банка. Задача: выяснить, влияет ли семейное положение и количество детей у заемщиков на погашение кредита в срок.

***Описание данных***

У меня есть датафрейм `data.csv` который содержит следующую информацию:
- столбец `children` — количество детей в семье;
- столбец `days_employed` — общий трудовой стаж в днях;
- столбец `dob_years` — возраст клиента в годах;
- столбец `education` — уровень образования клиента;
- столбец `education_id` — идентификатор уровня образования;
- столбец `family_status` — семейное положение;
- столбец `family_status_id` — идентификатор семейного положения;
- столбец `gender` — пол клиента;
- столбец `income_type` — тип занятости;
- столбец `debt` — имел ли задолженность по возврату кредитов;
- столбец `total_income` — ежемесячный доход;
- столбец `purpose` — цель получения кредита.

**1. Импортирую библиотеку pandas. Считаю данные из csv-файла в датафрейм и сохраню в переменную `data`.**

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('C:\\Users\\1\\Desktop\\учеба\\python\\предобработка данных\\data.csv')

**2. Выведу первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**3. Выведу основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**4. Выведу количество пропущенных значений для каждого столбца. Использую комбинацию методов isna() и sum().**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**5. Заполню пропуске в столбце `total_income` по медианным значением по каждому типу из столбца `income_type`.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**6. Обработаю все отрицательные значения в столбце `days_employed` и заменю их положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**7. Для каждого типа занятости выведу медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить эти значения проблематично, поэтому оставлю их как есть.

**8. Выведу перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**9. В столбце `children` есть два аномальных значения. Удалю их.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**10. Проверю, удалились ли аномальные значения.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**11. Заполню пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**12. Убедимся, что все пропуски заполнены.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**13. Заменю вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**14. Обработаю неявные дубликаты в столбце `education`. Приведу все значения в столбце к нижнему регистру.**

In [14]:
data['education'] = data['education'].str.lower()

**15. Выведу на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалю их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**16. На основании диапазонов, указанных ниже, создам в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

**Для этого наишу собственную функцию categorize_income() которая будет распределять заемщиков по категорям в зависимости от дохода.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

**Применю функцию**

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**17. Выведу на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**18. Напишу функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.


**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Исследую данные 

In [22]:
data['debt'].unique() # узнаём все уникальные значения столбца 'dept'

array([0, 1], dtype=int64)

Мы выяснили уникальные значения столбца 'debt' и определили следующее:
- значение "0" в строке означает, что заемщик не имел задолженностей по кредиту;
- значение "1" в строке означает, что заемщик имел задолженность по кредиту.

Исходя их этого мы можем сгруппировать данные по необходимому нам столбцу и подсчитать количество заемщиков с помощью метода 'count', сумму заемщиков имевших задолженность по кредиту с помощью метода 'sum' 
и долю должников с помощью метода 'mean'.

    
Напишем функцию для построения сводных таблиц по неоходимому нам столбцу в соответсвии с запросом.
Зададим название функции `svod`, имя параметра функции `column`. Используя значения столбца `debt` создадим три столбца:
- с помощью функции агрегации `count` столбец 'total_borrowers'(всего заемщиков)
- с помощью функции агрегации `sum` столбец 'total_debtors'(всего должников)
- с помощью функции агрегации `mean` столбец 'share_of_debtors'(доля должников)

    В столбце 'share_of_debtors' данные укажем в процентах, для удобства чтения информации.

    Отфильтруем значения в таблице и удалим из нее категории в которых значения в столбце 'total_borrowers' меньше 400, т.к. выборка слишком незначительна для формулировки корректных выводов.

    Отсортируем данные в талице по убыванию в столбце 'share_of_debtors'.

In [23]:
# указываем название функции
def svod(column):        
    # создадим сводную таблицу 
    grouping_debt = data.pivot_table(index=column, values='debt', aggfunc=['count', 'sum', 'mean'])
    # переименуем столбцы
    grouping_debt.rename(columns = {'count': 'total_borrowers', 'sum': 'total_debtors', 
                                    'mean': 'share_of_debtors', 'debt':''}, inplace=True)
    # отформатируем данные в толбце 'share_of_debtors'
    grouping_debt['share_of_debtors'] = grouping_debt['share_of_debtors'].apply('{:.2%}'.format)
    # отфильтруем и отсортируем данные в таблице
    grouping_debt = grouping_debt.loc[grouping_debt['total_borrowers'] >= 400].sort_values(by='share_of_debtors', ascending=False).reset_index()
    
    return grouping_debt    

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?



**С помощью функциии `svod` создадим сводную таблицу сгрупированую по столбцу 'children'.**


In [24]:
children_pivot = svod(data['children'])
display(children_pivot)

Unnamed: 0,children,total_borrowers,total_debtors,share_of_debtors
,,,,
0.0,2.0,2052.0,194.0,9.45%
1.0,1.0,4808.0,444.0,9.23%
2.0,0.0,14091.0,1063.0,7.54%


<div style="border:solid orange 2px; padding: 20px">
    
    Исходя из полученной таблицы мы видим, что заемщики с тремя и более детьми были удалены, т.к. данных по ним не          достаточно для формулировки корректных выводов.
    Также мы видим, что среди заемщиков не имеющих детей самый маленький процент должников.
    Среди заемщиков имеющих 2 детей процент должников выше, чем среди заемщиков имеющих 1 ребенка.   
    
           
**Вывод:** Количество детей у заемщика влияет на возврат кредита в срок. С увеличением количества детей растет вероятность появления задолженности. 



#### Есть ли зависимость между семейным положением и возвратом кредита в срок?



С помощью функциии `svod` создадим сводную таблицу сгрупированую по столбцу 'family_status'.


In [25]:
family_pivot = svod(data['family_status'])
display(family_pivot)

Unnamed: 0,family_status,total_borrowers,total_debtors,share_of_debtors
,,,,
0.0,Не женат / не замужем,2796.0,273.0,9.76%
1.0,гражданский брак,4134.0,385.0,9.31%
2.0,женат / замужем,12261.0,927.0,7.56%
3.0,в разводе,1189.0,84.0,7.06%
4.0,вдовец / вдова,951.0,63.0,6.62%


<div style="border:solid orange 2px; padding: 20px">
        
    Исходя из полученных данных мы видим, что среди заемщиков не состоявших в отношениях или состоящих в гражданском           браке чаще встречаются недобросовестные плательщики. Остальные категории заемщиков реже допускают задолженности по возврату кредита. 

**Вывод:** Семейное положение влияет на возврат кредита в срок.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?


С помощью функциии `svod` создадим сводную таблицу сгрупированую по столбцу 'total_income_category'.


In [26]:
income_pivot = svod(data['total_income_category'])
display(income_pivot)

Unnamed: 0,total_income_category,total_borrowers,total_debtors,share_of_debtors
,,,,
0.0,C,15921.0,1353.0,8.50%
1.0,B,5014.0,354.0,7.06%


<div style="border:solid orange 2px; padding: 20px">

    Исходя из полученной таблицы мы видим, что категории дохода A, D, E были удалены, т.к. по ним не достаточно данных для формулировки корректных выводов.
    При сравнении оставшихся категорий мы видим, что заемщики с доходом выше среднего (категория B) имеют меньший          процент должников.   
**Вывод:** Уровень дохода  влияет на возврат кредита в срок. Чем выше доход, тем меньше вероятность появления задолженности.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?


Для того, чтобы определить как разные цели кредита влияют на возврат кредита в срок воспользуемся функциии `svod` создадим сводную таблицу, сгруппрованную по столбцу 'purpose_category' в котором мы ранее категоризировали цели на которые заемщики брали кредиты.


In [27]:
purpose_pivot = svod(data['purpose_category'])
display(purpose_pivot)

Unnamed: 0,purpose_category,total_borrowers,total_debtors,share_of_debtors
,,,,
0.0,операции с автомобилем,4279.0,400.0,9.35%
1.0,получение образования,3988.0,369.0,9.25%
2.0,проведение свадьбы,2313.0,183.0,7.91%
3.0,операции с недвижимостью,10751.0,780.0,7.26%


<div style="border:solid orange 2px; padding: 20px">
    
**Вывод:**     Исходя из полученных данных мы видим, что заемщики получающие кредит на операции с недвижимостью,  на проведение свадьбы реже других допускают задолженность по кредиту. Чаще всего допускают задолженность заемщики получившие кредит на операции с автомобилем и на получение образования. 



3.5 Приведу возможные причины появления пропусков в исходных данных.

 Пропуски в данных могут появляться по следующим причинам:
- ошибки при обрабоке информации в системе (сбой в системе обработки и хранения данных)
- намеренное сокрытие данных (например когда пользователь специально не указывает при регистрации те или иные данные)
- некорректный ввод данных ( например когда пользователь должен ввести email в котором должен содержаться символ '@', но в вводимых данных отсутсует символ '@')


#### 3.6 Объясню, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

В случае, если в данных имеются значения сильно отличающиеся от большей части значений, то корректней будет находить медианное значение и заполнять им пропуски, т.к. оно находит среднее значение в данных и заполняет им пропуски. Если мы попытаемся найти среднее арифметическое значение, то для такого набора данных оно будет не корректно отображать среднее число (если есть значения намного превышающие большую часть значений, то среднее арифметическое выдаст результат превышающий большую часть значений, а следовательно данный результат будет не корректным для заполнения пропущенных значений).

### Общий вывод.

<div style="border:solid orange 2px; padding: 30px">

**Общий вывод:**
    В ходе работы над гипотезой о влиянии семейного положения и количества детей клиента на факт погашения кредита в срок мы определили следующие закономерности:
- **количество  детей влияет на возврат кредита в срок.** С увеличением количества детей растет вероятность появления задолженности.
- **семейное положение влияет на возврат кредита в срок.** Среди заемщиков не состоявших в отношениях или состоящих в гражданском    браке чаще встречаются недобросовестные плательщики.
    
    Также мы выдвинули гипотезы о влиянии уровня дохода и цели займа на возврат кредита в срок и определили следующие закономерности:
- уровень дохода влияет на возврат кредита в срок. Чем ниже доход, тем больше вероятность появления задолженности;
- заемщики получающие кредит на операции с недвижимостью, на проведение свадьбы реже допускают задолженность по кредиту, чем заемщики получившие кредит на операции с автомобилем и на получение образования.
    
**В ходе выполнения данного проекта мы провели следующую работу:**
- определили в каких столбцах имеются пропущенные данные и посчитати количество пропусков;
- заполнили пропуски в столбцах 'total_income' и 'days_employed' медианными значениями по каждому типу занятости;
- проработали аномальные значения в столбцах 'days_employed' и 'children';
- изменили тип данных в столбце 'total_income';
- провели работу по удалению неявных дубликатов в столбце 'education';
- ввели 2 дополнительных столбца в таблицу в которых категоризировали данные по уровню дохода и цели кредита;
- написали функцию для построения сводных таблиц с группировкой данных по необходимому нам для проверки гипотезы столбцу
- воспользовавшись введенной нами функцией построили сводные таблицы с неоходимыми нам данными для формирования выводов.
    

    
**Рекомендации банку-заказчику:**

1. Есть вероятность что возраст, образование и пол заемщика также могут влиять на возврат кредита в срок, для корректного построении модели кредитного скоринга рекомендуем провести анализ с учетом вышеперечисленных данных.
2. При проверке гипотез часть категорий была удалена из выборки в всязи с недостаточностью данных для построения корректных выводов, на основании этого рекомендуем по возможности расширить выборку.  