# Исследование надежности заемщиков


**Описание проекта**:

Выполнить исследование о влиянии семейного положения, количества детей, дохода и целей получения кредита клиентом, на факт погашения кредита в срок. 

**Цель проекта:** 

Собрать данные для последующего формирования модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку

**Описание данных:**

Входные данные от банка — статистика о платёжеспособности клиентов, содержащая следующие сведения:


*children* — количество детей в семье

*days_employed* — общий трудовой стаж в днях

*dob_years* — возраст клиента в годах

*education* — уровень образования клиента

*education_id* — идентификатор уровня образования

*family_status* — семейное положение

*family_status_id* — идентификатор семейного положения

*gender* — пол клиента

*income_type* — тип занятости

*debt* — имел ли задолженность по возврату кредитов

*total_income* — ежемесячный доход

*purpose* — цель получения кредита

**План работы:**
1. Изучить предоставленные данные.
2. Выполнить предобработку данных 
3. Исследовать зависимость кол-ва детей у клиента на возврат кредита
4. Исследовать зависимость семейного положения клиента на возврат кредита
5. Исследовать зависимость дохода клиента на возврат кредита
6. Исследовать зависимость цели получения кредита на возврат кредита
7. Дать общий вывод по выполненному исследованию


Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [9]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [11]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [17]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [19]:
for d in data['income_type'].unique():
    data.loc[(data['income_type'] == d) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == d), 'total_income'].median()
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [22]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [24]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [27]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [29]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [31]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [34]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [36]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [39]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [42]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [44]:
data.duplicated().sum()

71

In [45]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [48]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [49]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [51]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [53]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [54]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [57]:
# сгруппируем клиентов по числу детей, посчитаем их общее количество и количество клиентов имеющих задолженность
# общее количество клиентов сгруппированных по количеству детей найдем с помощью метода .count()
# т.к. 1 в столбце debt означает задолженность, количество клиентов имеющих задолженность найдем методом .sum() 
# найдем среднее количество должников по группам mean_debt, разделив количество должников на общее количество клиентов в группе
# отсортируем полученные значения mean_debt в порядке убывания
# выведем датафрейм, с целью контроля результата
children_grouped = data.groupby('children').agg({'debt':['count', 'sum', 'mean']})
children_grouped.sort_values(('debt', 'mean'), ascending=False)

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
4,41,4,0.097561
2,2052,194,0.094542
1,4808,444,0.092346
3,330,27,0.081818
0,14091,1063,0.075438
5,9,0,0.0


**Вывод:** На первый взгляд кажется, будто бы зависимость между возвратом кредита и количеством детей у клиента отсутствует, т.к. по группе клиентов имеющих 5 детей, должников не имеется, а доля должников у клиентов имеющих трех детей, меньше чем у клиентов имеющих по 1, 2 и 4 ребенка.
Однако если посмотреть на количество клиентов, то можно заметить, что выборка по клиентам имеющим 3,4 и 5 детей не сопоставима по объему, с выборкой клиентов не имеющих детей или имеющих одного или двух детей.
Сравнивая среднюю задолженность по клиентам с сопоставимыми объемами выборки (например больше 1000), а это соответственно 0, 1 и 2 ребенка, мы можем увидеть, что с ростом количества детей средняя задолженность увеличивается, однако т.к. разница в средней задолженности между людьми имеющими 1 и 2 детей несущественна, можно говорить скорее о зависимости возврата кредита от наличия детей, а не от их количества, т.к. среднее количество должников по группе клиентов не имеющих детей, существенно ниже всех остальных групп.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [60]:
# сгруппируем клиентов по типу семейного положения, посчитаем их общее количество и количество клиентов имеющих задолженность
# общее количество клиентов сгруппированных по типу семейного положения, найдем с помощью метода .count()
# т.к. 1 в столбце debt означает задолженность, количество клиентов имеющих задолженность найдем методом .sum() 
# найдем среднее количество должников по группам mean_debt, разделив количество должников на общее количество клиентов в группе
# отсортируем полученные значения mean_debt в порядке убывания 
# выведем датафрейм, с целью контроля результата
data_grouped = data.groupby('family_status').agg({'debt':['count', 'sum', 'mean']})
data_grouped.sort_values(('debt', 'mean'), ascending=False)

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2796,273,0.097639
гражданский брак,4134,385,0.09313
женат / замужем,12261,927,0.075606
в разводе,1189,84,0.070648
вдовец / вдова,951,63,0.066246


**Вывод:** В данном случае мы имеем сопоставимые по объему выборки (более 1000), менее 1000 является выборка клиентов с семейным статусом "вдова/вдовец", однако, т.к. число 951 близко к 1000, включим данную группу в анализ и посмотрим на ее поведение. По результату сравнения среднего количества должников по каждому типу семейного статуса, можно придти к следующему выводу:
1. Меньше всего должников имеется среди людей, ранее бывших в браке (группа 2 - "вдовец / вдова" и группа 3 - "в разводе".
2. Следом идут люди находящиеся в браке (группа 0 - "женат / замужем")
3. Больше всего должников среди холостых людей или людей находящихся в гражданском браке (группа 1 - "гражданский брак", группа 4 - "Не женат / не замужем")

Обратим внимание на тот факт, что количество должников в группе "гражданский брак" ближе к группе "Не женат / не замужем", чем к группе "женат / замужем".
Отсюда приходим к выводу, что сам факт пребывания человека в официальном браке(в настоящем или прошлом), значительно повышает вероятность возврата кредита в срок, в то время как люди не имеющие такого опыта (группа "гражданский брак" и "Не женат / не замужем") имеют схожие доли средней задолженности.
Т.к. поведение по выборке группы 2 - "вдовец / вдова", вписалось в общую логику исследования, оставим данную выборку в анализе 

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [63]:
# в первой части данного исследования мы категоризировали клиентов по уровню дохода, присвоив им следующие категории:
# E: 0–30000
# D: 30001–50000 
# C: 50001–200000
# B: 200001–1000000 
# A: 1000001 и выше 
# для удобства анализа сгруппируем клиентов по числуданным категориям, посчитаем их общее количество 
# и количество клиентов имеющих задолженность
# общее количество клиентов сгруппированных по категории дохода найдем с помощью метода .count()
# т.к. 1 в столбце debt означает задолженность, количество клиентов имеющих задолженность найдем методом .sum() 
# найдем среднее количество должников по группам mean_debt, разделив количество должников на общее количество клиентов в группе
# отсортируем полученные значения mean_debt в порядке убывания и выведем весь датафрейм для оценки результата
total_income_grouped = data.groupby('total_income_category').agg({'debt': ['count', 'sum', 'mean']})
total_income_grouped.sort_values(('debt', 'mean'), ascending=False)

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
E,22,2,0.090909
C,15921,1353,0.084982
A,25,2,0.08
B,5014,354,0.070602
D,349,21,0.060172


**Вывод:** В данном случае, объемами выборки достаточной для сравнения (более 1000) обладают категории B (доход диапазона 200001–1000000) и С (доход диапазона 50001–200000). 
По данным категориям мы можем прийти к выводу, что клиенты с доходом дипазона С, имеют существенно большую долю должников, чем клиенты с доходом диапазона B. Однако, имеющиеся у нас данные, позволяют сделать заключение только по данным двум категориям дохода клиентов, выборки по остальным категориям слишком малы для включения их в анализ. 

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [66]:
# в первой части данного исследования мы категоризировали клиентов по целям получения кредита на следующие категории:
# Операции с автомобилем
# Получение образования
# Проведение свадьбы
# Операции с недвижимостью 
# для удобства анализа сгруппируем клиентов по числуданным категориям, посчитаем их общее количество 
# и количество клиентов имеющих задолженность
# общее количество клиентов сгруппированных по категории дохода найдем с помощью метода .count()
# т.к. 1 в столбце debt означает задолженность, количество клиентов имеющих задолженность найдем методом .sum() 
# найдем среднее количество должников по группам mean_debt, разделив количество должников на общее количество клиентов в группе
# отсортируем полученные значения mean_debt в порядке убывания и выведем весь датафрейм для оценки результата
purpose_category_grouped = data.groupby('purpose_category').agg({'debt': ['count', 'sum', 'mean']})
purpose_category_grouped.sort_values(('debt', 'mean'), ascending=False)

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4279,400,0.09348
получение образования,3988,369,0.092528
проведение свадьбы,2313,183,0.079118
операции с недвижимостью,10751,780,0.072551


**Вывод:** В данном случае, объемы выборки по всем категориям клиентов достаточны для сравнения (более 1000). 
По результатам анализа среднего количества задолжников по категории "Цель получения кредита", можно придти к следующим выводам:
1. Максимальное количество должников находятся в категориях "Операции с автомобилем" и "Получение образования", доли должников по данным категориям отличаются незначительно.
2. Количество должников по категории "Проведение свадьбы" меньше, чем в двух вышеуказанных категориях, но больше чем в категории "Операции с недвижимостью" 
3. Количество должников по категории "Операции с недвижимостью" является наименьшим, скорее всего, по причине того, что получение такого займа требует залога покупаемой недвижимости

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* Пропуски данных содержались в столбцах days_employed - "общий трудовой стаж в днях" и total_income - "ежемесячный доход". Скорее всего причина образования этих пропусков в том, что данные сведения не были указаны клиентом при заполнении анкеты.
Причиной может быть как отсутствие трудового стажа и ежемесячного дохода у клиента, так и сокрытия клиентом данной информации, ввиду того что он считает величину своего трудового стажа или ежемесячный дохода недостаточными для одобрения заявки. 
Также, такие пропуски могут быть вызваны техническим сбоем при формировании исходных данных.

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* Заполнение количественных пропусков медианным значением максимально приближено к реальному распределению значений в рассматриваемой группе, т.к. в отличие от среднего значения, не учитывает влияние "выбросов" (аномально высоких или низких значений), приводящих к искажению представления о среднем распределении в группе.

### Шаг 4: общий вывод.

По результатам проведенного исследования о надежности заемщиков в зависимости от количества детей, семейного положения, уровнем дохода и целей кредита, можно придти к следующим выводам:
1. Можно говорить скорее о зависимости возврата кредита от наличия детей, а не от их количества, т.к. среднее количество должников по группе клиентов не имеющих детей, существенно ниже всех остальных групп.
2. Факт пребывания человека в официальном браке(в настоящем или прошлом), значительно повышает вероятность возврата кредита в срок, в то время как люди не имеющие такого опыта (группа "гражданский брак" и "Не женат / не замужем") имеют схожие доли средней задолженности.
3. По надежности заемщиков в зависимости от уровня дохода, мы можем прийти к выводу, что клиенты с доходом дипазона 50001–200000, имеют существенно большую долю должников, чем клиенты с доходом диапазона 200001–1000000. Однако, имеющиеся у нас данные, позволяют сделать заключение только по данным двум категориям дохода клиентов, выборки по остальным категориям слишком малы для включения их в анализ.
4. В зависимости от целей кредита надежность заемщиков распределена следующим образом:
а) Максимальное количество должников находятся в категориях "Операции с автомобилем" и "Получение образования"
б) Количество должников по категории "Проведение свадьбы" меньше, чем в двух вышеуказанных категориях, но больше чем в категории "Операции с недвижимостью" 
в) Количество должников по категории "Операции с недвижимостью" является наименьшим, скорее всего, по причине того, что получение такого займа требует залога покупаемой недвижимости.