# Исследование надежности заемщиков


# Описание проекта

В ходе проекта разберемся, влияет ли семейное положение, количество детей, уровень дохода клиента на факт погашения кредита в срок. Входные данные — статистика о платёжеспособности клиентов.

# Цель проекта

Целью проекта является проведение исследования в ходе которого дадим ответы на следующие вопросы:
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

А так же предоставление результатов исследования для построения модели кредитного скоринга.

# Описание данных

children — количество детей в семье

days_employed — общий трудовой стаж в днях

dob_years — возраст клиента в годах

education — уровень образования клиента

education_id — идентификатор уровня образования

family_status — семейное положение

family_status_id — идентификатор семейного положения

gender — пол клиента

income_type — тип занятости

debt — имел ли задолженность по возврату кредитов

total_income — ежемесячный доход

purpose — цель получения кредита


# План работы

- Изучим общую информацию о данных
- Выполним необходимую предобработку данных
- Исследуем данные и ответим на поставленные вопросы
- Общий вывод



Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
,RangeIndex: 21525 entries, 0 to 21524
,Data columns (total 12 columns):
, #   Column            Non-Null Count  Dtype  
,---  ------            --------------  -----  
, 0   children          21525 non-null  int64  
, 1   days_employed     19351 non-null  float64
, 2   dob_years         21525 non-null  int64  
, 3   education         21525 non-null  object 
, 4   education_id      21525 non-null  int64  
, 5   family_status     21525 non-null  object 
, 6   family_status_id  21525 non-null  int64  
, 7   gender            21525 non-null  object 
, 8   income_type       21525 non-null  object 
, 9   debt              21525 non-null  int64  
, 10  total_income      19351 non-null  float64
, 11  purpose           21525 non-null  object 
,dtypes: float64(2), int64(5), object(5)
,memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [45]:
df = data.pivot_table(index = ['children'], values = 'debt', aggfunc = ('count', 'sum', 'mean'))
column_order = ['count','sum', 'mean']
df = df.reindex(column_order, axis=1)
df['mean'] = df['mean']*100
print (df)# Ваш код будет здесь. Вы можете создавать новые ячейки.

            count     sum      mean
,children                           
,0         14091.0  1063.0  7.543822
,1          4808.0   444.0  9.234609
,2          2052.0   194.0  9.454191
,3           330.0    27.0  8.181818
,4            41.0     4.0  9.756098
,5             9.0     0.0  0.000000


**Вывод:** 

Вывод будем делать, учитывая категории клиентов, у которых нет детей, один и два ребёнка, так как количество клиентов с тремя, четырьмя и пятью детьми, в разы меньше.

Анализируя полученную сводную таблицу, замечаем, что доля должников среди тех, у кого нет детей, меньше, чем тех у кого один и два ребёнка.

Таким образом, по исходным данным можем сделать вывод, что те клиенты, у которых нет детей, являются более 'ответственными' в возврате кредита в срок. В то же время, доли клиентов - должников с одним или двумя детьми примерно одинаковы, то есть количество детей не сильно влияет на возврат денег в срок.



#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [46]:
df = data.pivot_table(index = ['family_status'], values = 'debt', aggfunc = ('count', 'sum', 'mean'))
column_order = ['count','sum', 'mean']
df = df.reindex(column_order, axis=1)
df['mean'] = df['mean']*100
print (df)# Ваш код будет здесь. Вы можете создавать новые ячейки.

                         count    sum      mean
,family_status                                  
,Не женат / не замужем   2796.0  273.0  9.763948
,в разводе               1189.0   84.0  7.064760
,вдовец / вдова           951.0   63.0  6.624606
,гражданский брак        4134.0  385.0  9.313014
,женат / замужем        12261.0  927.0  7.560558


**Вывод:** 

Большую долю должников составляют категории клиентов с семейным положением - не женат / не замужем и клиенты в гражданском браке. 

Клиенты, которые хоть раз были женаты, то есть клиенты с семейным положением:  женат / замужем; в разводе; и вдовец/вдова являются более 'ответственными' в возврате занятых денежных средств в срок.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [47]:
df = data.pivot_table(index = ['total_income_category'], values = 'debt', aggfunc = ('count', 'sum', 'mean'))
column_order = ['count','sum', 'mean']
df = df.reindex(column_order, axis=1)
df['mean'] = df['mean']*100
print (df)# Ваш код будет здесь. Вы можете создавать новые ячейки.

                         count     sum      mean
,total_income_category                           
,A                         25.0     2.0  8.000000
,B                       5014.0   354.0  7.060231
,C                      15921.0  1353.0  8.498210
,D                        349.0    21.0  6.017192
,E                         22.0     2.0  9.090909


**Вывод:** 

Количество заемщиков во всех категориях кроме B и C несопоставимо меньше, поэтому будем сравнивать только их. 

Наиболее высокая доля клиентов с доходом  200001 - 1000000 руб возвращают кредит во время, тем более, что общее число клиентов с доходом категории 'В' (доход 200001 - 1000000 руб) превосходит общее число клиентов с доходом категории 'В'(доход 50001 - 200000 руб) в 3 раза (15921 человек-категория 'С'/5014 человек - категория 'В').

Таким образом, в результате анализа исходных данных, можем сделать вывод, что чем больше доход клиента, тем больше верояность того, что он возвратит заёмные средства в срок.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [48]:
df = data.pivot_table(index = ['purpose_category'], values = 'debt', aggfunc = ('count', 'sum', 'mean'))
column_order = ['count','sum', 'mean']
df = df.reindex(column_order, axis=1)
df['mean'] = df['mean']*100
print (df)# Ваш код будет здесь. Вы можете создавать новые ячейки.

                            count    sum      mean
,purpose_category                                  
,операции с автомобилем     4279.0  400.0  9.347978
,операции с недвижимостью  10751.0  780.0  7.255139
,получение образования      3988.0  369.0  9.252758
,проведение свадьбы         2313.0  183.0  7.911803


**Вывод:** 

В результате анализа исходных данных мы видим, что чаще всего клиенты берут кредит на операции с недвижимостью - среди них наблюдается наименьшая доля должников. Примерно такую же долю составляют должники, бравшие кредит на проведение свадьбы. 

А вот заёмщики, бравшие средства в долг на операции с автомобилем и получение образования, менее охотно возвращают занятые деньги в срок.


#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* Например, при сборе информации автоматизированная система дала сбой или человек не указал данные о себе при заполнении информации, так же бывает, что пропуски в данных оставляют умышленно для заполонения их спецсимволами

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* Среднее значение некорректно отображает данные, когда некоторые значения слишком сильно отличаются от основной массы в большую или меньшую степени, а медиана это такое число, что половина элементов больше него а половина меньше, то есть она более точно отразит результат среднего значения в количественных переменных

### Шаг 4: общий вывод.

В ходе проведённого исследования, были выявлены следуюшие зависимости:

1) Количество детей не значительно влияет на возврат кредита в срок, в отличие от самого наличия детей, так как клиенты, у которых нет детей, чаще остальных возвращают занятые деньги во время.

2) Не женатые / не замужние и клиенты в гражданском браке гораздо чаще остальных не возвращают во время занятые средства, а клиенты, которые хоть раз были женаты, то есть клиенты с семейным положением:  женат / замужем; в разводе; и вдовец/вдова являются более 'ответственными' в возврате занятых денежных средств в срок.


3) Чем больше уровень дохода клиента, тем больше верояность того, что он возвратит заёмные средства в срок.


4) Чаще всего клиенты берут кредит на операции с недвижимостью - среди них наблюдается наименьшая доля должников. Примерно такую же долю составляют должники, бравшие кредит на проведение свадьбы. А вот заёмщики, бравшие средства в долг на операции с автомобилем и получение образования, менее охотно возвращают занятые деньги в срок.

Так же необходимо отметить, что в процессе работы в исходных данных было замечено значительное количество пропусков, аномалий, дубликатов, что говорит о необходимости в улучшении сбора данных.

