# Исследование надежности заемщиков


Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



Порядок рассмотрения заявки на выдачу кредита предполагает изучение персональных данных, которые раскрывают информацию о платежеспособности потенциального заемщика. Результаты данного исследования будут учтены при построении **модели кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку. Решение об отклонении или удовлетворении запроса на предоставление кредита зависит от множества факторов, которые предстоит проверить.

**Цель исследования** - проверить четыре гипотезы:  
1. **Количество детей у потенциального заемщика влияет на вероятность возврата кредита в срок.** (Наличие иждивенцев значительно снижает платежеспособность)
2. **Семейное положение влияет на вероятность возврата кредита в срок.** (При возникновении проблем с выполнением долговых обязательств, супруги могут найти дополнительные источники доходов)
3. **Уровень дохода влияет на вероятность возврата кредита в срок.** (Заемщикам со стабильным доходом проще всего взять кредит)
4. **Цели кредитования влияют на вероятность возврата кредита в срок.** (Целевое кредитование интересно банку потому что банк может оформить приобретаемое по целевому займу имущество в залог, а если и не оформит, то может взыскать это имущество через суд в случае просрочки платежей)  

**Ход исследования:**  

**Входные данные от банка** — статистика о платёжеспособности клиентов получены из файла datasets/data.csv. О качестве данных изначально ничего не известно, поэтому перед проверкой гипотез понадобится обзор данных (проверка данных на ошибки и оценка их влияния на исследование).

**Исследование пройдет в три этапа:**  
1. Обзор данных.
2. Предобработка данных.
3. Проверка гипотез.


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Комментарии:**  
Для считывания файла использована конструкция try и except. Если код в блоке try не сработает должным образом, то запустится блок except.

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Комментарии:**   
На первый взгляд сразу видны некоторые проблемы с данными:
1. Отсутствуют значения в столбцах 'days_employed'
2. Разный регистр данных в столбце 'education' и 'total_income'.
3. В столбце 'days_employed' есть как положительные, так и отрицательные значения, что странно для указания общего трудового стажа.

**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Комментарии:**  
В таблице 12 столбцов и 21525 строк.

**Согласно документации к данным:**
- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

1. Количество значений в столбцах 'days_employed' и 'total_income' говорит о том, что есть пропущенные значения.
2. Основные показатели для работы с гипотезами - это количество детей в семье, семейное положение, наличие задолженности по возврату кредита, доход заемщика.

## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Комментарии:**   
Подозрение подтвердилось, в столбцах 'days_employed' и 'total_income' по 2174 пропущенных значения.

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

**Комментарии:**  
Данные с большим количеством пропущенных значений могут существенно повлиять на качество исследования, а их удаление может привести к потере большого количества информации, поэтому одним из способов решения этой проблемы является восполнение отсутствующих (пропущенных) значений из существующей части данных медианой. Данный метод является простым и быстрым.

Пропуски могли случиться из-за:  
- технических проблем;
- датасет был собран из нескольких источников с разными наборами параметров;
- человеческий фактор, ошибка банковского специалиста;
- возможно у заемщиков нет подтвержденного дохода или стажа (нет официального оформления, серая зп и т.п.);
- заемщик никогда не работал, возможно по состоянию здоровья (оформлена инвалидность).

В идеале, лучше уточнять возможные причины отсутствующих данных у коллег, делающих выгрузку.

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

In [7]:
data['days_employed']

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

**Комментарии:**  
Функция abs() возвращает абсолютную величину (неотрицательное значение), переданное ей в качестве аргумента. Все значения стали положительными.

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [8]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Комментарии:**  
Имеет смысл либо исключить аномальные значения, либо привести их в соответствие с общей моделью данных, чтобы они не влияли на результаты анализа. В нашем исследовании данные о трудовом стаже существенной роли не играют, поэтому мы опускаем этот момент.

Однако, с точки зрения руководства кредитного учреждения, обнаруженные аномальные значения действительно искажают информацию об исследуемом бизнес-процессе и могут повлиять на качество модели и достоверность результатов анализа, необходимо выполнить их корректировку.
Например, лица, взявшие большой кредит, могут быть либо перспективными клиентами, к которым нужен особый подход (например, специальные условия кредитования), чтобы повысить их лояльность к банку, либо мошенниками.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [9]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**Комментарии:**  
Столбец 'children' содержит значения -1 и 20, которые сильно выделяются на фоне остальной выборки. Отрицательного значения в графе кол-во детей не может быть, также как и странно выглядит число 20, если конечно речь не идет об уникальном случае.

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [10]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Комментарии:**  
В данных встречаются аномалии, о которых нам следует предупредить тех, кто занимается выгрузкой данных.


**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [11]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Комментарии:**  
Вероятно, что пропуски в данных столбца 'days_employed' могли появиться по нескольким причинам:
1. Человеческий фактор, ошибка специалиста банка.
2. Клиенты при заполнении документов не указывали свой трудовой стаж.

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [13]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [14]:
data['total_income'] = data['total_income'].astype(int)

In [15]:
data.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income          int32
purpose              object
dtype: object

**Комментарии:**  
Тип данных в столбце 'total_income' скорректирован в удобный для анализа формат int (целочисленные значения). Остальные данные необходимые для проверки гипотез представлены в удобном для работы формате.

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [16]:
data['education'] = data['education'].str.lower()

In [17]:
data['gender'] = data['gender'].str.lower()

In [18]:
#data['family_status'].str.isupper()
data['purpose'].str.isupper()

0        False
1        False
2        False
3        False
4        False
         ...  
21520    False
21521    False
21522    False
21523    False
21524    False
Name: purpose, Length: 21402, dtype: bool

**Комментарии:**  
Значения в столбцах 'education' и 'gender' приведены к нижнему регистру.  
Остальные данные в столбцах с типом данных object также в нижнем регистре, что делает вид таблицы более лаконичным.  
Для проверки использовался метод str.isupper(), который возвращает True, если все символы в строке str прописные (имеют верхний регистр), при этом строка не должна быть пустой, то есть должна иметь хотя бы один символ в верхнем регистре и не состоять из одних пробелов.

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [19]:
data.duplicated().sum()

71

In [20]:
data = data.drop_duplicates()

In [21]:
data.duplicated().sum()

0

**Комментарии:**  
Почистили датафрейм от дубликатов - найден и удален 71 дубликат.

Для нахождения дубликатов применен метод duplicated() совместно с методом sum() для определения количества дубликатов. Для удаления дубликатов используется метод drop_duplicates().

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [22]:
def categorize_income(row):
    income = row['total_income']
    if 0 <= income <= 30000:
        return 'низкий'
    elif 30001 <= income <= 50000:
        return 'средний'
    elif 50001 <= income <= 200000:
        return 'выше среднего'
    elif 200001 <= income <= 1000000:
        return 'высокий'
    elif income >= 1000001:
        return 'очень высокий'

In [23]:
data['total_income_category'] = data.apply(categorize_income, axis=1)

In [24]:
data['total_income_category'].value_counts()

выше среднего    15921
высокий           5014
средний            349
очень высокий       25
низкий              22
Name: total_income_category, dtype: int64

In [25]:
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,высокий
1,1,4024.803754,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,выше среднего
2,0,5623.422610,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,выше среднего
3,3,4124.747207,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,высокий
4,0,340266.072047,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,выше среднего
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,f,компаньон,0,224791,операции с жильем,высокий
21521,0,343937.404131,67,среднее,1,женат / замужем,0,f,пенсионер,0,155999,сделка с автомобилем,выше среднего
21522,1,2113.346888,38,среднее,1,гражданский брак,1,m,сотрудник,1,89672,недвижимость,выше среднего
21523,3,3112.481705,38,среднее,1,женат / замужем,0,m,сотрудник,1,244093,на покупку своего автомобиля,высокий


**Комментарии:**  
Выполнила оценку платежеспособности клиентов по уровню дохода, присвоила категории, которые будут более удобны для анализа данных по аналогии с классификацией стран по уровню доходов МБРР (низкий, средний, выше среднего, высокий, очень низкий) и вынесла в отдельный столбец 'total_income_category'.  
Из полученной сводки можно сделать небольшой вывод о том, что кредитные продукты мало интересуют 2 категории граждан: с самым низким доходом - меньше 30 тыс. и с самым высоким доходом - выше 1 млн.

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [26]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Комментарии:**  
В датафрейме есть столбец 'purpose' с информацией о целях кредитования. В нем содержится много схожих по смыслу целей, которые можно выделить в отдельные 4 категории.

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [27]:
def categorize_purpose(row):
    if 'авто' in row:
        return 'операции с автомобилем'
    elif 'образован' in row:
        return 'получение образования'
    elif 'свадь' in row:
        return 'проведение свадьбы'
    elif "недвижим" in row:
        return 'операции с недвижимостью'
    elif 'жиль' in row:
        return 'операции с недвижимостью'

In [28]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data['purpose_category'].value_counts()

операции с недвижимостью    10751
операции с автомобилем       4279
получение образования        3988
проведение свадьбы           2313
Name: purpose_category, dtype: int64

In [29]:
#data['purpose_category'].value_counts().sum()
#10751/21331*100

**Комментарии:**
1. Получили краткий список целей кредитования, сократив его до 4 категорий.
2. Большей популярностью пользуются кредиты, связанные с недвижимостью их доля от общего числа составляет более 50%.

### Шаг 3. Исследуйте данные и ответьте на вопросы

In [30]:
# функция для расчета отношения в %, для ответов на последующие вопросы исследования
def percentage_ratio(pdSerises):
    return str(round((pdSerises.sum() / pdSerises.count()) * 100, 2)) + '%'

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [31]:
# построим сводную таблицу для ответа на вопрос
data_child = data.pivot_table(index=['children'], values=['debt'], aggfunc=['sum', 'count', percentage_ratio])

In [32]:
# отсортируем полученные данные и переименуем столбцы
data_child = data_child.sort_values(by=('percentage_ratio', 'debt'))
data_child = data_child.rename(columns={'sum': 'кол-во должников', 'count': 'кол-во заёмщиков', 'percentage_ratio': 'риск задолженности'})
data_child

Unnamed: 0_level_0,кол-во должников,кол-во заёмщиков,риск задолженности
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,0,9,0.0%
0,1063,14091,7.54%
3,27,330,8.18%
1,444,4808,9.23%
2,194,2052,9.45%
4,4,41,9.76%


In [33]:
#pd.DataFrame({'Кол-во детей и заемщиков':data['children'].value_counts()})

**Комментарии:**    
1. Вывели функцию для расчета отношения риска задолженности, он показывает отношение количества заёмщиков имеющих просрочки по оплатам кредитов к общему числу заёмщиков по категории.
2. Построили сводную таблицу для категоризации заёмщиков по наличию/отсутствию детей.
3. Отсортировали ее по возрастанию риска возникновения задолженности, чем меньше коэффициент, тем более 'надёжная' категория заёмщиков 
  
На мой взгляд, связь между наличием детей и своевременным возвратом кредита слабая, однако риск возникновения задолженности **без детей** составляет **7,5%** против **9,2% с одним ребенком**.
Самый высокий показатель риска для семей **с 4-мя детьми - 9,8%**. 
Это можно объяснить тем фактом, что семьи с детьми имеют более высокий уровень расходов

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [34]:
# построим сводную таблицу для ответа на вопрос
data_family = data.pivot_table(index=['family_status'], values=['debt'], aggfunc=['sum', 'count', percentage_ratio])

In [35]:
# отсортируем полученные данные и переименуем столбцы
data_family = data_family.sort_values(by=('percentage_ratio', 'debt'))
data_family = data_family.rename(columns={'sum': 'кол-во должников', 'count': 'кол-во заёмщиков', 'percentage_ratio': 'риск задолженности'})
data_family

Unnamed: 0_level_0,кол-во должников,кол-во заёмщиков,риск задолженности
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
вдовец / вдова,63,951,6.62%
в разводе,84,1189,7.06%
женат / замужем,927,12261,7.56%
гражданский брак,385,4134,9.31%
Не женат / не замужем,273,2796,9.76%


**Комментарии:**   
1. Построили сводную таблицу для категоризации заёмщиков по семейному положению.
2. Отсортировали ее по возрастанию риска возникновения задолженности, чем меньше коэффициент, тем более 'надёжная' категория заёмщиков.

Согласно таблице, наибольший риск имеют категории заемщиков со статусами **'не женат/не замужем' - 9,8% и 'гражданский брак' - 9,3%**, а наименьший риск со статусом **'вдовец/вдова'**.  
Возможно, что вдовцы и вдовы относятся к более взрослой/пожилой возрастной группе заемщиков, поэтому более осознанно относятся к совершаемым финансовым операциям, лучше планируют свои бюджеты.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [36]:
# построим сводную таблицу для ответа на вопрос
data_total = data.pivot_table(index=['total_income_category'], values=['debt'], aggfunc=['sum', 'count', percentage_ratio])

In [37]:
# отсортируем полученные данные и переименуем столбцы
data_total = data_total.sort_values(by=('percentage_ratio', 'debt'))
data_total = data_total.rename(columns={'sum': 'кол-во должников', 'count': 'кол-во заёмщиков', 'percentage_ratio': 'риск задолженности'})
data_total

Unnamed: 0_level_0,кол-во должников,кол-во заёмщиков,риск задолженности
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
средний,21,349,6.02%
высокий,354,5014,7.06%
очень высокий,2,25,8.0%
выше среднего,1353,15921,8.5%
низкий,2,22,9.09%


**Комментарии:**   
1. Построили сводную таблицу для категоризации заёмщиков по уровню дохода.
2. Отсортировали ее по возрастанию риска возникновения задолженности, чем меньше коэффициент, тем более 'надёжная' категория заёмщиков.

Заемщики со **'средним'** уровнем дохода являются более надёжными.
Удивительно, что к **наибольшей группе риска - 9%** относится категория заемщиков с **'низким'** доходом, однако наибольшее количество должников с уровнем доходов **'выше среднего' - 1353 и 'высоким' - 354**.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [38]:
# построим сводную таблицу для ответа на вопрос
data_purpose = data.pivot_table(index=['purpose_category'], values=['debt'], aggfunc=['sum', 'count', percentage_ratio])

In [39]:
# отсортируем полученные данные и переименуем столбцы
data_purpose = data_purpose.sort_values(by=('percentage_ratio', 'debt'))
data_purpose = data_purpose.rename(columns={'sum': 'кол-во должников', 'count': 'кол-во заёмщиков', 'percentage_ratio': 'риск задолженности'})
data_purpose

Unnamed: 0_level_0,кол-во должников,кол-во заёмщиков,риск задолженности
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,780,10751,7.26%
проведение свадьбы,183,2313,7.91%
получение образования,369,3988,9.25%
операции с автомобилем,400,4279,9.35%


**Комментарии:**   
1. Построили сводную таблицу для категоризации заёмщиков по цели кредитования.
2. Отсортировали ее по возрастанию риска возникновения задолженности.

Повышенные риски невозврата кредита в срок у заемщиков с целью **'приобретения автомобиля'- 9,4% и 'получения образования' - 9,3%.**  
Наиболее ответственная категория заемщиков, те кто берут кредиты для проведения **'операций с недвижимостью' - 7,3%**.


#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

**Комментарии:**   
Пропуски в исходных данных могли появиться из-за:
- технических проблем при сборе данных;
- датасет был собран из нескольких источников с разными наборами параметров;
- человеческий фактор, ошибка банковского специалиста при вводе данных;
- возможно у заемщиков нет подтвержденного дохода или стажа (нет официального оформления, серая зп и т.п.);
- заемщик никогда не работал, возможно по состоянию здоровья (оформлена инвалидность).

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

**Комментарии:**  
Пропущенные значения в total_income мы заполнили медианным доходом среди всех записей с тем же типом. 
Заполнение пропусков медианным значением является хорошей альтернативой средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам), что позволяетт получить более точную информацию и снизить возможную статистическую погрешность.

### Шаг 4: общий вывод.

В этом проекте мы выяснили, есть ли взаимосвязь между персональными данными потенциального заемщика и рисками несвоевременного погашения кредита.  

**Было проделано не мало работы с данными:**  
1. Обработка артефактов;
2. Преобразование отрицательных значений в положительные;
3. Изменение типа данных на целое число;
4. Обработка дубликатов и пропущенных значений;
5. Категоризация данных (наличие детей, семейное положение, уровень дохода, цель кредита);

**Были обнаружены некоторые проблемы в предоставленных для анализа данных:**  
1. Отсутствующие и отрицательные значения в столбце days_employed
2. Отсутствующие значения в столбце total_income

**Рекомендации для устранения проблем с данными:**  

1. Устранить технические неполадки во время сбора данных;
2. Провести аудит бизнес-процессов, с целью выявления причины неполного учета доходов и отработанных дней потенциальных заемщиков;
3. Строгая категоризация целей кредитования;
4. Внедрение категоризации доходов клиентов.

В среднем, риски невозврата кредита в срок во всех гипотезах примерно одинаковые, в диапазоне от 7 до 9 процентов.

**1. Влияние наличия детей на возврат кредита в срок**  

Риски возникновения задолженности у заемщиков без детей ниже, чем у заемщиков с детьми. Самый высокий показатель риска для семей с 4-мя детьми - 9,8%.

**2. Влияние наличия детей на возврат кредита в срок**  

Риски возникновения задолженности у заемщиков с семейным положением 'вдовец/вдова' самые низкие. Самый высокий риск у заемщиков со статусами 'не женат/не замужем' - 9,8% и 'гражданский брак' - 9,3%, т.е. все кто не состоит официально в отношениях.

**3. Влияние цели кредитования на его возврат в срок**  
Самые низкие риски у заемщиков с оформленными кредитами по сделкам с недвижимостью - 7,3%. Повышенные риски невозврата кредита в срок у заемщиков с целью 'приобретения автомобиля'- 9,4% и 'получения образования' - 9,3%.


Подводя итоги, составим **Портрет идеального заемщика** и **Портрет ненадежного заемщика**.  

✅**Портрет идеального заемщика**

- Нет детей;
- Вдовец/вдова или в разводе;
- Доход средний (30-50 т.руб.) или высокий (200т.-1 млн.руб.)
- Цель кредитования - операции с недвижимостью.
  
❌**Портрет ненадежного заемщика**
- Наличие 4х или 2х детей, а также семьи с одним ребенком;
- Не женат/не замужем или живет в гражданском браке;
- Доход низкий (до 30 т.руб.) или выше среднего (50-200 т.руб.)
- Цели кредитования - получение образования или покупка авто.