# Исследование надежности заемщиков


Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



**Описание проекта** 
<p>Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных**

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
data['children'].value_counts()
#вспомнила какие варианты количества детей имеются в таблице

0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

Вариантов оказалось немного, больше всего бездетных ~14 000, ~4800 с одним, ~2000 с двумя
и меньше всего многодетных семей, поэтому возможно имеет смысл объединить их в одну категорию 
(возможно и нет, проверим в дальнейшем это выстраиванием двух сводных.
первую выстроим: от категории "детности" и вторую: от количества детей)

In [23]:
#Для личного удобства в анализе разобью семьи на 3 категории через функцию с созданием if
def children_category_foo(children):
    if children == 0:
        return 'Бездетные'
    if children == 1 or children == 2:
        return 'обычная семья'
    if children >= 3:
        return 'многодетная семья'

#создаем новый столбец в нашей таблице, добавляем туда данные с помощью обработки функцией данных из столбца children
data['children_category'] = data['children'].apply(children_category_foo)

#проверим корректность работы функции путем вывода 2-х столбцов таблицы
data[['children','children_category']].head(10)

Unnamed: 0,children,children_category
0,1,обычная семья
1,1,обычная семья
2,0,Бездетные
3,3,многодетная семья
4,0,Бездетные
5,0,Бездетные
6,0,Бездетные
7,0,Бездетные
8,2,обычная семья
9,0,Бездетные


In [24]:
#Введем функцию обрабатывающую данные из столбца с фактами задолженности:
def per_debt(pdSerises):
    return str(round((pdSerises.sum() / pdSerises.count()) * 100, 2)) + '%'

#создадим сводную таблицу с двумя столбцами - количеством заемщиков определенной категории 
#и % имевших задолженностей среди этих категорий
data_pivot = data.pivot_table(index=['children'], values=['debt'], aggfunc=['count',per_debt])

#выведем результат отсориториванной сводной таблицы, с теми группами заемщиков, которые преобладают
data_pivot[data_pivot['count', 'debt'] > 1000].sort_values(by=('per_debt', 'debt'))

Unnamed: 0_level_0,count,per_debt
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14091,7.54%
1,4808,9.23%
2,2052,9.45%


Функция категоризации семей работает корректно, теперь нужно обработать данные столбца с количеством просрочек.
Для этого понадобится столбец 'debt'. По документации: debt — имел ли задолженность по возврату кредитов.
Посмотрим какие уникальные значения в нем представлены, какой это тип данных. (пробежавшись визуально по таблице, кажется, что там только 1/0 булевы значения)

In [25]:
data['debt'].value_counts()

0    19599
1     1732
Name: debt, dtype: int64

я применила функцию, подсчитывающую количество строк по уникальным значениям столбца.
В столбце debt действительно хранятся значения только 1/0. Следовательно, для того, чтобы построить сводные таблицы, нам потребуется обработать эти данные, чтобы таблица отражала % просрочек в зависимости от категории семьи или количества детей.

In [26]:
#создадим вторую функцию per_debt, которая будет выводить нам процент просрочек. 
'''Мы работает с датафреймом в pandas, значит мы можем поделить объекты типа Serises друг на друга,
умножить на 100 (%), округлить наше значение до 2-х знаком после запятой и вывести строку с добавлением нужного нам знака'''

def per_debt(pdSerises):
    return str(round((pdSerises.sum() / pdSerises.count()) * 100, 2)) + '%'

In [27]:
#выстроим сводную таблицу data_pivot с помощью инструмена pivot_table. Установим фильтр по категории "детности" семьи.
#в качестве значений возьмем наш столбец просрочек debt, обработаем его с помощью 3-х функций.
data_pivot = data.pivot_table(index=['children_category'], values=['debt'], aggfunc=['sum','count',per_debt])

#выводим результат отсориториванной сводной таблицы
data_pivot.sort_values(by=('per_debt', 'debt'))

Unnamed: 0_level_0,sum,count,per_debt
Unnamed: 0_level_1,debt,debt,debt
children_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Бездетные,1063,14091,7.54%
многодетная семья,31,380,8.16%
обычная семья,638,6860,9.3%


В первой сводной таблице мы видим, что наименьшее количество фактов задолженности по возврату кредитов - имеют бездетные семьи, а вот обычные семьи с 1-2 детьми вероятно не самые надеждые заемщики судя по первой сводной.
Чтобы потвердить вывод, сделаю еще одну сводную, не от категории семьи, а от количества детей, возможно семьи с одним ребенком будут на равне с бездетными, а после появления второго ребенка количество просрочек резко вырастает.

In [28]:
#выстроим сводную таблицу data_pivot с помощью инструмена pivot_table. Установим фильтр по количеству детей в семье.
#в качестве значений возьмем наш столбец просрочек debt. Выведем столбцы, обработанные тремя функциями.
data_pivot = data.pivot_table(index=['children'], values=['debt'], aggfunc=['sum','count',per_debt])

#выводим результат второй отсориториванной сводной таблицы
data_pivot.sort_values(by=('per_debt', 'debt'))

Unnamed: 0_level_0,sum,count,per_debt
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,0,9,0.0%
0,1063,14091,7.54%
3,27,330,8.18%
1,444,4808,9.23%
2,194,2052,9.45%
4,4,41,9.76%


Гипотеза из первой сводой таблицы о том, что семьи с одним ребенком такие же надежные как бездетные семьи не подтвердилась.

% фактов задолженностей семей с одним ребенком несущественно отличается от результатов этого же критерия семей с двумя и четырмя детьми.

Зато мы увидели, что в текущей выборке самыми ответственными являются семьи с 5-ю детьми, хоть и являются наименьшими представителями по количеству таких семей в нашей таблице.

**Вывод:** 

Отсутствие задолженности у семей с 5-ю детьми можно не принимать во внимание, т.к. таких семей крайне мало в нашей таблице (9 семей). Бездетных семей больше всего в нашей таблице (около 14 000) и у них наименьший процент фактов возникновения задолженности (~7,5%), среди других семей, имеющих смысл к сравнению.

Чуть менее надежные ~на 0,7% семьи с тремя детьми - у них % возникновения фактов задолженности ~8,2%

Остальные семьи не сильно отличаются по % фактов задолженностей (~9,2% до ~9,7%)

Результаты оценки надежности плательщиков в зависимости от количества детей не однозначно показательны, т.к. дельта между самыми условно надежными и условно ненадежными плательщиками составляет ~2,2% (относительные значения 22.7%).

Вероятнее, этим способом оценки критерия надежности не стоит пользоваться как основным. Но это также следует проверить другими способами оценки надежности и сравнить дельту результатов между самым низким и самым высоким показателем надежности в другим способах оценки надежности.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

Проделаем аналогичные операции с построением таблицы, только в текущем случае нам не нужно обрабатывать данные столбца под %

Сначала посмотрим, людей с каким семейным положением больше, т.е. на какие данные можно опираться, а на какие не принимать во внимание.

In [29]:
data['family_status'].value_counts()

женат / замужем          12261
гражданский брак          4134
Не женат / не замужем     2796
в разводе                 1189
вдовец / вдова             951
Name: family_status, dtype: int64

Больше всего в таблице людей, находящихся в зарегистрированном браке (~12 000), в три раза меньше заемщиков в гражданском браке (чуть более 4000), заемщиков в статусе не женат/не замужем (чуть менее 3000).
Примерно на одном уровне по количеству заемщиков находятся люди в разводе и овдовевшие заемщики (951 и 1189). Категоризировать на занятых и холостых можно, но не имеет особого смысла на текущий момент.

Значит можно принимать во внимание все категории заемщиков, здесь не наблюдается аномально низких результатов значений как в первом случае категоризации по детности семей. (там были значения на несколько порядков меньше большинства типов)

In [30]:
# построим сводную таблицу с помощью инструмена pivot_table. Установим фильтр по семейному положению.
#в качестве значений возьмем наш столбец просрочек debt. Выведем столбцы, обработанные тремя функциями.
data_pivot_family_status = data.pivot_table(index=['family_status'], values=['debt'], aggfunc=['sum','count',per_debt])

#выводим результат второй отсориториванной сводной таблицы, чтобы увидеть результат работы нашей ранее созданной функции
data_pivot_family_status.sort_values(by=('per_debt', 'debt'))

Unnamed: 0_level_0,sum,count,per_debt
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
вдовец / вдова,63,951,6.62%
в разводе,84,1189,7.06%
женат / замужем,927,12261,7.56%
гражданский брак,385,4134,9.31%
Не женат / не замужем,273,2796,9.76%


**Вывод:** 

Самыми надежными заемщиками являются овдовевешие заемщики. Но таких заемщиков меньше всего в представленной таблице. (в 12 раз меньше, чем женатых/замужних, например). Доля фактов просроченных платежей у таких заемщиков ~6,6%.

Чуть менее надежные заемщики - те, кто находится в разводе. Из условная надежность выплат ниже на ~0,5% вдовцов.

На третьем месте по надежности выплат - заемщики, которые находятся сейчас в зарегистрированном браке. Их надежность примерно равна результатам надежности бездетных заемщиков. И также мы видим, что представителей с замужних/женатых больше всего.

Самыми ненадежными заемщикам являются свободные/находящиеся в гражданском браке заемщики.
Заемщики, хоть раз заключавшие брак (находящиеся в нем или уже нет) - являются наиболее надежными.

Результаты оценки надежности плательщиков в зависимости от семейного положения более показательны, чем результаты оценки надежности по количеству детей. Дельта между самыми условно надежными и условно ненадежными плательщиками в текущем методе оценки составляет ~3,2% (относительные значения 32.2%). Результаты более показательные, но не явно однозначные, поэтому стоит опробовать другие методы оценки надежности заемщиков.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Для выполнения этого задания, мы уже создавали столбец ['total_income_category'] с категоризацией заемщиков по доходности (сколько они получают в месяц) в 16-ом задании первой части проекта. Что это были за категории:

0–30000 — 'E';

30001–50000 — 'D';

50001–200000 — 'C';

200001–1000000 — 'B';

1000001 и выше — 'A'

Сейчас также посмотрим какой категории заемщиков у нас больше всего.

In [31]:
data['total_income_category'].value_counts()

C    15921
B     5014
D      349
A       25
E       22
Name: total_income_category, dtype: int64

Больше всего заемщиков, категории С (~16000), в три раза меньше заемщиков с большим доходом категории В (чуть более 5000).
Заемщиков с другими категориями - достаточно мало (в общей сложности менее 500).

In [32]:
# построим сводную таблицу с помощью инструмена pivot_table. Установим фильтр по категории дохода.
#в качестве значений возьмем наш столбец просрочек debt. Выведем столбцы, обработанные тремя функциями.
data_pivot_income_category = data.pivot_table(index=['total_income_category'], values=['debt'], aggfunc=['sum','count',per_debt])

#выводим результат второй отсориториванной сводной таблицы, чтобы увидеть результат работы нашей ранее созданной функции
data_pivot_income_category.sort_values(by=('per_debt', 'debt'))

Unnamed: 0_level_0,sum,count,per_debt
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,21,349,6.02%
B,354,5014,7.06%
A,2,25,8.0%
C,1353,15921,8.5%
E,2,22,9.09%


**Вывод:** 

Самые надежные заемщики - категории D, имеющая доход от 30 001 до 50 000. Но таких заемщиков, как мы видим - немного, всего 349.
Чуть менее надежными являются заемщики, категории B, с достаточно высоким доходом (от 200 001 до 1 000 000), и представителей такой группы заемщиков достаточно много, чтобы мы принимали эту резуьтаты во внимание.

Не самыми надежными заемщиками являются люди с очень высоким уровнем дохода (больше миллиона). Можно педположить на основании полученных данных, что люди с очень высоким доходам являются средними по надежности выплат.

Самыми ненадежными заемщиками являются - заемщики категории E, с самым низким доходом (до 30000) и категории С - со средним уровнем дохода (от 50 001 до 200 000). Если категории E в выборке меньше всего, то категории С - наоборот, наиболее часто встречающаяся категория.

Результаты оценки надежности плательщиков в зависимости от уровня дохода примерно также показательно, как и результаты оценки надежности по семейному положению. Дельта между самыми условно надежными и условно ненадежными плательщиками в текущем методе оценки составляет ~3,5% (относительные значения 33.8%). Результаты более показательные, и более однозначные.

In [33]:
# построим сводную таблицу с помощью инструмена pivot_table для всех категорий заемщиков
data_pivot_income_category = data.pivot_table(index=['total_income_category'], values=['debt'], aggfunc=['count',per_debt])

#выведем результат отсориториванной сводной таблицы, с теми категориями заемщиков, которые преобладают
data_pivot_income_category[data_pivot_income_category['count', 'debt'] > 5000].sort_values(by=('per_debt', 'debt'))

Unnamed: 0_level_0,count,per_debt
Unnamed: 0_level_1,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
B,5014,7.06%
C,15921,8.5%


#### 3.4 Как разные цели кредита влияют на его возврат в срок?

Для выполнения этого задания, мы уже создавали столбец ['purpose_category'] с категоризацией заемщиков по целям кредита в 18-ом задании первой части проекта.
Для удобства еще раз посмотрим какие это были категории и сколько заемщиков определенной категории у нас есть в данных:

In [34]:
data['purpose_category'].value_counts()

операции с недвижимостью    10751
операции с автомобилем       4279
получение образования        3988
проведение свадьбы           2313
Name: purpose_category, dtype: int64

Чаще всего берут кредит на покупку недвижимости (~11 000 заемщиков).
Также на одном порядке присутствуют и другие категории, представители которых исчисляются в тысячах, а не в сотнях или десятках.

In [35]:
# построим сводную таблицу с помощью инструмена pivot_table. Установим фильтр по целям займа.
#в качестве значений возьмем наш столбец просрочек debt. Выведем столбцы, обработанные тремя функциями.
data_pivot_purpose_category = data.pivot_table(index=['purpose_category'], values=['debt'], aggfunc=['sum','count',per_debt])

#выводим результат второй отсориториванной сводной таблицы, чтобы увидеть результат работы нашей ранее созданной функции
data_pivot_purpose_category.sort_values(by=('per_debt', 'debt'))

Unnamed: 0_level_0,sum,count,per_debt
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,780,10751,7.26%
проведение свадьбы,183,2313,7.91%
получение образования,369,3988,9.25%
операции с автомобилем,400,4279,9.35%


**Вывод:** 

Категории заемщиков, которые берут кредит на операции с недвижимостью, больше всех и они являются наиболее надежными.Поэтому это самый безопасный вариант для банка.
Чуть менее надежными являются заемщики, которые берут кредит на проведение свадьбы (как подтверждается в проверке других гипотез женатые/замужние или разведенные являются надежными заемщиками), поэтому выдавать такие займы вероятно также безопасно для банка.

Наименее ответственными и надежными заемщиками являются категории заемщиков, берущие кредит на образование и приобретение авто.

Метод оценки надежности по цели кредита примерно такой же показательный как и первый метод оценки надежности по количеству детей. Дельта между самыми надежными и ненадежными 2,1% (относительные значения 22,4%)

Все методы показывают небольшую абсолютную дельту в результатах между самыми надежными и самыми ненадежными: 2,3% - 3,5%.
Если смотреть по относительным значениям в каждом методе - то наиболее показательным являются два метода: по уровню дохода и семейному положению. Вероятнее всего, стоит использовать более комплексные методы оценки, которые оценивают заемщиков сразу по нескольким категориям.

In [36]:
#создаю столбец с дополнительной категорией, которая объединит несколько других категорий
data['test_category'] = data['family_status'].map(str)+","+data['total_income_category'].map(str)
#смотрю какие категории у меня создались и сколько их представителей
data['test_category'].value_counts()

женат / замужем,C          9072
гражданский брак,C         3087
женат / замужем,B          2938
Не женат / не замужем,C    2100
гражданский брак,B          973
в разводе,C                 887
вдовец / вдова,C            775
Не женат / не замужем,B     667
в разводе,B                 282
женат / замужем,D           223
вдовец / вдова,B            154
гражданский брак,D           62
Не женат / не замужем,D      25
вдовец / вдова,D             22
в разводе,D                  17
женат / замужем,E            14
женат / замужем,A            14
гражданский брак,A            6
гражданский брак,E            6
в разводе,A                   3
Не женат / не замужем,E       2
Не женат / не замужем,A       2
Name: test_category, dtype: int64

In [37]:
#создаем сводную таблицу, которая покажет нам количество заемщиков каждой из вышесозданной тестовой категории 
#и долю допущенных просрочек среди каждой категории
data_pivot_test_category = data.pivot_table(index=['test_category'], values=['debt'], aggfunc=['sum','count',per_debt])

#выводим результат сводной, с условием вывода категорий представителей которой более 100:
data_pivot_test_category[data_pivot_test_category['count', 'debt'] > 100]

#сортировка почему-то не срабатывает, если мне кто-то пояснит почему - буду признательна

Unnamed: 0_level_0,sum,count,per_debt
Unnamed: 0_level_1,debt,debt,debt
test_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
"Не женат / не замужем,B",62,667,9.3%
"Не женат / не замужем,C",209,2100,9.95%
"в разводе,B",18,282,6.38%
"в разводе,C",64,887,7.22%
"вдовец / вдова,B",9,154,5.84%
"вдовец / вдова,C",54,775,6.97%
"гражданский брак,B",64,973,6.58%
"гражданский брак,C",315,3087,10.2%
"женат / замужем,B",201,2938,6.84%
"женат / замужем,C",711,9072,7.84%


В данном методе можно увидеть уже большую дельту между самыми надежными и ненадежными заемщиками, это означает что введение дополнтельных критериев оценки дает более показательный результат, значит более точный.

Самыми ненадежными заемщиками оказываются неженатые/незамужние клиенты любой категории доходности, и живущие гражданским браком, но с доходами средней категории. Вероятнее всего каждый 10-ый заемщих этих категорий будет иметь просрочку

Самыми надежными будут являться такие категории как: заемщики заключившие брак, но с низкой доходностью (30-50 тыс) и вдовцы имеющие высокую доходность. Вероятнее только каждый 18-ый заемщих из этих категорий будет иметь просрочку.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* 

Для точного ответа потребуется сделать анализ категорий заемщиков у которых не были заполнены столбцы с количеством дней занятости и доходностью. Если требуется это сделать - прошу дать комментарий.

Сейчас поверхностно можно предположить, что: некоторые заемщики имели возможность и/или желание не раскрывать своих данных, например, если их об этих данных не спрашивали (забыли) или запрашивать эти данные не требовалось изначально при заполнении анкеты.
Возможно, данные собраны из разных источников, в некоторых предусматривалось заполнение этого столбца, в некоторых нет.
Также трудовой стаж мог отсутствовать у определенных категорий граждан - людей с инвалидностью, живущих на субсидии от государства, женщин/мужчин, находящихся в декретном отпуске, или самозанятых.

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:*
В некоторых таблица медианное значение и среднее значение могут быть примерно равны, когда сами значения не сильно отличаются друг от друга.
Я понимаю медианное значение как средневзвешенное, при котором учитывается какие значения больше влияют на выборку, какие меньше, чтобы получились наименее искаженные результаты.

Конечно, когда выборка большая можно увидеть аномально высокие и низкие результаты -> стоит использовать медиану, если мы принимаем решение не отбрасывать аномалии, а работать с ними.


### Шаг 4: общий вывод.

При оценке надежности по категории детности семей - бездетные показали самую высокую надежность. Доля просроченных займов у них 7.54%
При оценке надежности по семейному положению заемщиков - высокую надежность показали вдвовцы/вдовы, разведенные и вступившие в брак заемщики - Доля просроченных займов у них менее 7.6% (у других категорий выше 9%)
При оценке надежности по категории доходности заемщиков - самые надежные, заемщики категорий D и B. Доля просроченных займов у них менее 7.1%
При оценке надежности по целям кредита - самые надежные клиенты, те, кто приобретает недвижимость за заемные средства.  Доля просроченных займов у них менее 7.3%

При оценке по 2-м критериям - доходности и семейному положению, самыми надежными оказались такие категории как: заемщики заключившие брак, но с низкой доходностью (30-50 тыс) и вдовцы/вдовы имеющие высокую доходность. Вероятнее только каждый 18-ый заемщих из этих категорий будет иметь просрочку. Доля просроченных займов у них менее 7.1%

Оценка финансовой надежности заемщиков по одному критерию - дает не совсем надежные результаты т.к. все 4 метода оценки по одному критерию показывают примерно одинаковую дельту в результатах. Лучше использовать комплексную оценку по всем критериям.