## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd # импорт библиотеки pandas

In [2]:
data = pd.read_csv('data.csv')
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


***ОБЩАЯ ХАРАКТЕРИСТИКА ДАННЫХ***
1) Столбец `children` — количество детей в семье.
* При первичном анализе (при выводе таблицы с данными)проблемы **не выявлены**. 

2) Столбец `days_employed` — общий трудовой стаж в днях.
* **Отрицательные значения** (тип данных числовой) не соответствуют смыслу переменной.
* **Аномально большие значения переменной** (например, общий трудовой стаж  *340266.072047(дней) / 365 (дней в году)  = 932 года*)   
* **Пропуски** в данных требуют дополнительного изучения (*21525-19351=2174 шт.*)

3) Столбец `dob_years` — возраст клиента в годах.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**. 

4) Столбец `education` — уровень образования клиента.  
* **Запись в разном регистре**, требует исправления для дальнейшей работы.

5) Столбец `education_id` — идентификатор уровня образования.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**. 

6) Столбец `family_status` — семейное положение.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**. 

7) Столбец `family_status_id` — идентификатор семейного положения.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**. 

8) Столбец `gender` — пол клиента.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**. 

9) Столбец `income_type` — тип занятости.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**. 

10) Столбец `debt` — имел ли задолженность по возврату кредитов.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**. 

11) Столбец `total_income` — ежемесячный доход.
* * **Пропуски** в данных требуют дополнительного изучения (*21525-19351=2174 шт.*). Возможно пропуски там же, где и в столбеце `days_employed`.

12) Столбец `purpose` — цель получения кредита.
* При первичном анализе (при выводе таблицы с данными) проблемы **не выявлены**.
___________________________________________________________________________
Несмотря на то, что при выводе таблицы с данными не было выявлено проблем в большинстве столбцов, следует понимать, что проблемы могут быть скрыты в середине этой таблицы. Поэтому целесообразно написать функцию, которая возвращает набор значений (*включая пропуски*) в отдельно взятом столбце, количество раз, которое встречается каждое значение, и долю этого значения от общего количества наблюдений.

In [4]:
# Создаем эту функцию 'unique_values_info'
# Аргументы функции:
# 1) data - данные в формате dataframe
# 2) col_name - название столбца в data, о котором хотим узнать статистику

def unique_values_info(data, col_name): # Объявляем функцию
    # Создаем dataframe, в который буудем сохранять статситику по значениям столбца
    # 'count' - количество раз, которое встречается в столбце конкретное значение
    # 'share' - доля количества раз, которое встречается в столбце конкретное значение
    # от общего числа наблюдений (включая пропуски, т. е. пропуски рассматриваем как отдельное значение)
    unique_values_data = pd.DataFrame(columns =['count', 'share'])
    
    # подсчет столбца 'count'
    unique_values_data['count'] = data[col_name].value_counts(dropna=False)
    
    # подсчет столбца 'share'
    unique_values_data['share'] = unique_values_data['count']/unique_values_data['count'].sum()
    
    # На текущем этапе таблица с интересующими данными представляет собой
    # dataframe, в котором индексы соответствуют значениям, которые встречаются 
    # в соответсвующем столбце из исходной таблицы (data).
    # Чтобы создать столбец со значениями, которые встречаются в исходной таблице,
    # необходимо воспользоваться сбросом индексации с сохранением исходной индексации в отдельном столбце,
    # т. е. воспользоваться функцией reset_index(drop=False) (ЕСЛИ НЕПРАВИЛЬНО УПОТРЕБИЛ ТЕРМИН "ФУНКЦИЯ", ТО ПОПРАВЬТЕ!!!)
    # В результате выполнения данной команды по умолчанию создается столбец 'index'.
    # Поскольку данный столбец представляет собой набор уникальных значений в интересующем нас столбце, то
    # целесообразно переименовать его на 'value'
    unique_values_data = unique_values_data.reset_index(drop=False).rename(columns={
    'index': 'value'
})
    # Таким образом, получаем dataframe, в котором отдельная строчка представляет собой
    # уникальное значение из интересующего столбца (столбец'value')
    # количество раз, которое встречается это уникальное значение (столбец'count')
    # доля этого значения в общем количестве наблюдений(столбец'share')
    return unique_values_data

Таким образом, с помощью функции `unique_values_info` можно выявить проблемы с пропусками, аномалиями в данных, неявными дубликатами, а также определить масштаб этих проблем, и на основе этого выработать стратегию борьбы с этими проблемами.

1. Поскольку в условии проекта нам явно указали на пропуски в столбцах `days_employed` и `total_income`, с них и начнем анализ.

In [5]:
unique_values_info(data, 'days_employed').sort_values(by = 'value')

Unnamed: 0,value,count,share
7879,-18388.949901,1,0.000046
11624,-17615.563266,1,0.000046
19147,-16593.472817,1,0.000046
9590,-16264.699501,1,0.000046
7481,-16119.687737,1,0.000046
...,...,...,...
13554,401674.466633,1,0.000046
18227,401675.093434,1,0.000046
16745,401715.811749,1,0.000046
18897,401755.400475,1,0.000046


Можно заметить, что в столбце `days_employed` следующие проблемы:
* 2174 пропуска (примерно 10,1% от общего числа наблюдений)
* Много аномалий (в абсолютном выражении)
* Значительная часть наблюдений имеют отрицательные значения, что не имеет смысла

Последовательно решим эти проблемы.

In [6]:
# Рассмотрим пропуски
data[data['days_employed'].isna()].sort_values(by = 'total_income')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Как и предполагалось изначально, пропуски в столбцах `days_employed` и `total_income` у одних и тех же наблюдений (потому что, во-первых, количество пропусков совпадает и, во-вторых, если бы пропуски не совпадали, то  после сортировки по столбцу `total_income` либо, в конце, либо в начале мы не видели пропуск, но это не так)

In [7]:
# Создадим новый dataframe (data_upd), куда будем записывать все исправления data (исходный файл оставим неизменным)
data_upd = data

В данных столбца `days_employed` присутсвуют аномалии (отрицательные значения и чрезвычайно большие значения). Прежде чем пытаться заполнить пропуски стоит разобраться с аномалиями. 
* Сделаем отрицательные значения стажа положительными
* Переведем стаж в годы (разделив на 365 дней в году) и сравним с возрастом (человек не может иметь стаж б***о***льший чем его возраст, в противном случае это наблюдение аномалия, и нужно уточнить, почему так могло получиться)

In [8]:
# Замена отрицательных значений на положительные
data_upd.loc[data_upd['days_employed'] < 0, 'days_employed'] = data.loc[data['days_employed'] < 0, 'days_employed']*(-1)
data_upd

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [9]:
# Продолжаем изучать аномалии: посчитаем, у скольких людей стаж превышает их возраст
display(data_upd.loc[(data_upd['days_employed']/365 > data_upd['dob_years']),
             ['days_employed', 'dob_years']].sort_values(by = 'dob_years'))
# вспомогательная переменная
n_filtered = data_upd.loc[(data_upd['days_employed']/365 > data_upd['dob_years']),
                   ['days_employed', 'dob_years']].shape[0]
print('Число наблюдений, в которых стаж превышает их возраст')
print(f'{n_filtered} ({n_filtered/data.shape[0]:.1%} от общего числа наблюдений)')

Unnamed: 0,days_employed,dob_years
13439,1036.644001,0
7075,4221.866597,0
15140,4294.221865,0
6831,731.396794,0
19116,331558.550969,0
...,...,...
20610,364291.049263,73
2557,372861.103965,74
19642,380150.387046,74
3460,344623.836105,74


Число наблюдений, в которых стаж превышает их возраст
3519 (16.3% от общего числа наблюдений)


Для значительного числа наблюдений (16.3% от общего числа) стаж превышает возраст.
Помимо этого, можно заметить, что в стобце `dob_years` присутствуют нулевые значения, которые не имеют смысла.
Псомтрим, как будет выглядеть данные если поставить ограничение на возраст больше нуля.

In [10]:
display(data_upd.loc[(data_upd['days_employed']/365 > data_upd['dob_years'])
             & (data_upd['dob_years'] > 0),
             ['days_employed', 'dob_years']].sort_values(by = 'dob_years'))
n_filtered = data_upd.loc[(data_upd['days_employed']/365 > data_upd['dob_years'])
             & (data_upd['dob_years'] > 0),
             ['days_employed', 'dob_years']].sort_values(by = 'dob_years').shape[0]

print('Число наблюдений, в которых стаж превышает их возраст при условии, что возраст не равен нулю')
print(f'{n_filtered} ({n_filtered/data.shape[0]:.1%} от общего числа наблюдений)')

Unnamed: 0,days_employed,dob_years
1242,334764.259831,22
16166,364348.197352,26
19439,389397.167577,26
12753,329781.704997,27
13953,376824.585817,27
...,...,...
1826,368375.048770,73
2557,372861.103965,74
3460,344623.836105,74
4895,341528.126150,74


Число наблюдений, в которых стаж превышает их возраст при условии, что возраст не равен нулю
3428 (15.9% от общего числа наблюдений)


Видно, что наблюдений с положительным возрастом и с превышающим этот возраст стажем все равно довольно много. Можно лишь предполагать, какая именно ошибка есть в этих данных. Вероятно, произошла ошибка при вводе данных (например, несоответствие форматов). **ЧЕЛОВЕК НЕ МОЖЕТ ИМЕТЬ ТРУДОВОЙ СТАЖ 900 И БОЛЕЕ ЛЕТ**. Эти данные точно аномальные, поэтому целесообразно уточнить у источника, почему могла возниктуть эта ошибка, и только потом устранить. И мы видим, что в оставшемся наборе данных минимальный возраст  года, что указывает на отсутсвие абсурдных данных о возрасте в данной подвыборке, но следует изучить обратить внимание на перменную возраста.

Устранять все аномалии для нас сейчас не столь принципиально, поскольку значения столбце `days_employed` нам не понадобятся для ответа на вопросы исследования. Наша основная задача при проверке данного столбца состоит в том, чтобы не потерять наблюдения из-за пропусков.

Пропуски в столбцах `days_employed` и `total_income` вероятно возникли в процессе импорта/экспорта данных.

Заполнять пропуски корректно в данном случае медианой, поскольку ранее я показал, что в столбце `days_employed` много аномально больших значений (возможно ошибка при формировании файла с данными), наша выборка очень неоднородна, а следовательно среднее значение будет неадекватно отражать действительнсоть.

In [11]:
# Заполним пропуски сразу в двух столбцах:
# 'days_employed'
data_upd['days_employed'] = data_upd['days_employed'].fillna(data_upd['days_employed'].median())

# 'total_income'
data_upd['total_income'] = data_upd['total_income'].fillna(data_upd['total_income'].median())

# ПРОВЕРКА
print('Число пропусков в столбце days_employed:', data_upd['days_employed'].isna().sum())
print('Число пропусков в столбце total_income:', data_upd['total_income'].isna().sum())


Число пропусков в столбце days_employed: 0
Число пропусков в столбце total_income: 0


Продолжим анализ столбцов с помощью функции `unique_values_info`

In [12]:
display(unique_values_info(data_upd, 'children'))
# Видно два странных значения для столбца 'children': 20 и -1.
# Скорее всего эти ошибки связаны с неверным вводом данных в исходном файле.
# Значение 20 заменим на 2 (видно добавили лишний 0).
data_upd['children'] = data_upd['children'].replace(20, 2)

# Значение -1 заменим на 1 (видно добавили лишний '-'). 
# Конечно, есть и альтернативный подход: заменить на самое популярное значение 0.
# Но мы предполагаем, что здесь закралась ошибка в вводе данных (по аналогии с 20)
# При этом стоит отметить, что замена этих значений не столь радикальна, поскольку их мало

data_upd['children'] = data_upd['children'].replace(-1, 1)

Unnamed: 0,value,count,share
0,0,14149,0.657329
1,1,4818,0.223833
2,2,2055,0.09547
3,3,330,0.015331
4,20,76,0.003531
5,-1,47,0.002184
6,4,41,0.001905
7,5,9,0.000418


In [13]:
display(unique_values_info(data_upd, 'dob_years').sort_values(by='value').head())
# Видим, что есть 101 наблюдений с возрастом 0.
# Сравним медиану и среднее.
print('Медиана возраста равна', data_upd['dob_years'].median())
print('Средний возраст равен', data_upd['dob_years'].mean())
# Разница не занчительная, поэтому заменим на среднее
data_upd['dob_years'] = data_upd['dob_years'].replace(0, data_upd['dob_years'].mean())

Unnamed: 0,value,count,share
47,0,101,0.004692
54,19,14,0.00065
52,20,51,0.002369
46,21,111,0.005157
43,22,183,0.008502


Медиана возраста равна 42.0
Средний возраст равен 43.29337979094077


In [14]:
display(unique_values_info(data_upd, 'education'))
# проблема та же, что и при первичном анализе (неявные дубликаты)
# устраняем с помощь приведения к общему регистру
# сделаем это сразу для всех столбцов с текстовыми данными
data['education'] = data['education'].str.lower()
data['purpose'] = data['purpose'].str.lower()
data['family_status'] = data['family_status'].str.lower()
data['income_type'] = data['income_type'].str.lower()

Unnamed: 0,value,count,share
0,среднее,13750,0.638792
1,высшее,4718,0.219187
2,СРЕДНЕЕ,772,0.035865
3,Среднее,711,0.033031
4,неоконченное высшее,668,0.031034
5,ВЫСШЕЕ,274,0.012729
6,Высшее,268,0.012451
7,начальное,250,0.011614
8,Неоконченное высшее,47,0.002184
9,НЕОКОНЧЕННОЕ ВЫСШЕЕ,29,0.001347


In [15]:
# Проверка
display(unique_values_info(data_upd, 'education'))

Unnamed: 0,value,count,share
0,среднее,15233,0.707689
1,высшее,5260,0.244367
2,неоконченное высшее,744,0.034564
3,начальное,282,0.013101
4,ученая степень,6,0.000279


In [17]:
display(unique_values_info(data_upd, 'education_id'))
# 'education_id' соотносится с данными по 'education'

Unnamed: 0,value,count,share
0,1,15233,0.707689
1,0,5260,0.244367
2,2,744,0.034564
3,3,282,0.013101
4,4,6,0.000279


In [16]:
display(unique_values_info(data_upd, 'family_status'))

Unnamed: 0,value,count,share
0,женат / замужем,12380,0.575145
1,гражданский брак,4177,0.194053
2,не женат / не замужем,2813,0.130685
3,в разводе,1195,0.055517
4,вдовец / вдова,960,0.044599


In [18]:
display(unique_values_info(data_upd, 'family_status_id'))
# 'family_status_id' соотносится с данными по 'family_status'

Unnamed: 0,value,count,share
0,0,12380,0.575145
1,1,4177,0.194053
2,4,2813,0.130685
3,3,1195,0.055517
4,2,960,0.044599


In [19]:
display(unique_values_info(data_upd, 'gender'))
# заменим странное значение 'XNA' (лишь 1 значение) на более распространненое 'F'
data_upd['gender'] = data_upd['gender'].replace('XNA', 'F')

Unnamed: 0,value,count,share
0,F,14236,0.66137
1,M,7288,0.338583
2,XNA,1,4.6e-05


In [20]:
# проверка
display(unique_values_info(data_upd, 'gender'))

Unnamed: 0,value,count,share
0,F,14237,0.661417
1,M,7288,0.338583


In [21]:
display(unique_values_info(data_upd, 'income_type'))
# Всё OK

Unnamed: 0,value,count,share
0,сотрудник,11119,0.516562
1,компаньон,5085,0.236237
2,пенсионер,3856,0.179141
3,госслужащий,1459,0.067782
4,безработный,2,9.3e-05
5,предприниматель,2,9.3e-05
6,студент,1,4.6e-05
7,в декрете,1,4.6e-05


In [22]:
display(unique_values_info(data_upd, 'debt'))
# Всё OK

Unnamed: 0,value,count,share
0,0,19784,0.919117
1,1,1741,0.080883


In [23]:
display(unique_values_info(data_upd, 'purpose'))
# Куча неявных дубликатов. Изменением регистра проблему не решить
# Нужно выделить общую часть у всех значений и объедить единым значением

Unnamed: 0,value,count,share
0,свадьба,797,0.037027
1,на проведение свадьбы,777,0.036098
2,сыграть свадьбу,774,0.035958
3,операции с недвижимостью,676,0.031405
4,покупка коммерческой недвижимости,664,0.030848
5,покупка жилья для сдачи,653,0.030337
6,операции с жильем,653,0.030337
7,операции с коммерческой недвижимостью,651,0.030244
8,покупка жилья,647,0.030058
9,жилье,647,0.030058


In [24]:
# Функция для унификации цели кредита
def purpose_unification(word): 
    if 'движ' in word or 'жил' in word:
        return 'операции с недвижимостью'
    if 'авто' in word:
        return 'операции с автомобилем'
    if 'свадь' in word:
        return 'проведение свадьбы'      
    return 'получение образования'

In [25]:
# Применяем функцию 'purpose_unification' ко всему столбцу 'purpose'
data_upd['purpose_uni'] = data_upd['purpose'].apply(purpose_unification)

# Проверка
display(unique_values_info(data_upd, 'purpose_uni'))

# Перезаписываем новые данные в стары столбец и убираем лишний
data_upd['purpose'] = data_upd['purpose_uni']
data_upd = data_upd.loc[:, 'children': 'purpose']

# Проверка
display(unique_values_info(data_upd, 'purpose'))

Unnamed: 0,value,count,share
0,операции с недвижимостью,10840,0.5036
1,операции с автомобилем,4315,0.200465
2,получение образования,4022,0.186852
3,проведение свадьбы,2348,0.109082


Unnamed: 0,value,count,share
0,операции с недвижимостью,10840,0.5036
1,операции с автомобилем,4315,0.200465
2,получение образования,4022,0.186852
3,проведение свадьбы,2348,0.109082


### Обработка  явных дубликатов

In [26]:
data_upd.duplicated().sum()
data_upd = data_upd.drop_duplicates()


data_upd.info()
# Все у нас нет пропусков и дубликатов. С интересующими нас столбцами нет проблем.

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21120 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21120 non-null  int64  
 1   days_employed     21120 non-null  float64
 2   dob_years         21120 non-null  float64
 3   education         21120 non-null  object 
 4   education_id      21120 non-null  int64  
 5   family_status     21120 non-null  object 
 6   family_status_id  21120 non-null  int64  
 7   gender            21120 non-null  object 
 8   income_type       21120 non-null  object 
 9   debt              21120 non-null  int64  
 10  total_income      21120 non-null  float64
 11  purpose           21120 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.1+ MB


In [27]:
# Создаем функцию определения доходной категории
def income_category(income):
    if income <= 30000:
        return 'E'
    elif (income > 30000) & (income <= 50000):
        return 'D'
    elif (income > 50000) & (income <= 200000):
        return 'C'
    elif (income > 200000) & (income <= 1000000):
        return 'B'
    return 'A'   

In [28]:
# Применяем функцию 'income_category' к столбцу 'total_income'
data_upd['total_income_category'] = data_upd['total_income'].apply(income_category)

# проверка
data_upd['total_income_category'].value_counts()

C    15682
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

### Шаг 3. Ответьте на вопросы

* Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [29]:
def debt_pivot_table(data, col_name):
    # Создаем сводную таблицу, в которой отражено, сколько семей с определенным количеством детей 
    # имели и не имели задолжности по взврату кредита
    pivot_table = data.pivot_table(index= col_name, columns='debt', values='dob_years', aggfunc='count')
    # Считаем долю семей с задолжностью по кредиту по каждой категории числа детей
    pivot_table['debt_group_ratio'] = pivot_table[1]/(pivot_table[1] + pivot_table[0])

    # Например среди семей с 5 детьми нет тех, кто НЕ ВЫПЛАТИЛ кредит, поэтому функция 'count' возвращает 'NaN'.
    # В данном случае 'NaN' правильно по смыслу заменить на 0.
    pivot_table = pivot_table.fillna(0)
    return pivot_table.sort_values(by='debt_group_ratio', ascending = False)

In [30]:
# Применяем функцию для столбца 'children'
debt_pivot_table(data_upd, 'children')

debt,0,1,debt_group_ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,36.0,4.0,0.1
2,1913.0,202.0,0.095508
1,4353.0,445.0,0.092747
3,302.0,27.0,0.082067
0,12768.0,1061.0,0.076723
5,9.0,0.0,0.0


* Процент семей, имеющих задолжность по кредиту, с разным количеством детей варьируется от 7,7% до 10% (кроме семей с 5 детьми: все 9 семей не имеют задолжностей). На первый взгляд, кажется, что эти различия незначительные. Однако возможно, что стаистически эти различия могут оказаться значимыми. Для проверки этой гипотезы необходимо проводить формальные статистические тесты, которые не предусмотрены в рамках этого спринта. Кроме того, следует понимать, что возможно варьируются объемы задолжностей, что для банка тоже чрезвычайно важно.

* Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [31]:
debt_pivot_table(data_upd, 'family_status_id')

debt,0,1,debt_group_ratio
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,2510,274,0.09842
1,3736,388,0.094083
0,11147,929,0.076929
3,1108,85,0.071249
2,880,63,0.066808


* Процент семей, имеющих задолжность по кредиту, с разным семейным положением от 6,7% до 9,8%. На первый взгляд, кажется, что эти различия незначительные. Однако возможно, что стаистически эти различия могут оказаться значимыми. Для проверки этой гипотезы необходимо проводить формальные статистические тесты, которые не предусмотрены в рамках этого спринта. Кроме того, следует понимать, что возможно варьируются объемы задолжностей, что для банка тоже чрезвычайно важно.

* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [32]:
debt_pivot_table(data_upd, 'total_income_category')

debt,0,1,debt_group_ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,20,2,0.090909
C,14324,1358,0.086596
A,23,2,0.08
B,4685,356,0.070621
D,329,21,0.06


* Процент семей, имеющих задолжность по кредиту,с разным уровнем дохода от 6,0% до 9,1%. На первый взгляд, кажется, что эти различия незначительные. Однако возможно, что стаистически эти различия могут оказаться значимыми. Для проверки этой гипотезы необходимо проводить формальные статистические тесты, которые не предусмотрены в рамках этого спринта. Кроме того, следует понимать, что возможно варьируются объемы задолжностей, что для банка тоже чрезвычайно важно.

* Как разные цели кредита влияют на его возврат в срок?

In [33]:
debt_pivot_table(data_upd, 'purpose')

debt,0,1,debt_group_ratio
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3870,402,0.094101
получение образования,3594,370,0.09334
проведение свадьбы,2120,186,0.080659
операции с недвижимостью,9797,781,0.073832


* Процент семей, имеющих задолжность по кредиту, с разными целями от 7,4% до 9,4%. На первый взгляд, кажется, что эти различия незначительные. Однако возможно, что стаистически эти различия могут оказаться значимыми. Для проверки этой гипотезы необходимо проводить формальные статистические тесты, которые не предусмотрены в рамках этого спринта. Кроме того, следует понимать, что возможно варьируются объемы задолжностей, что для банка тоже чрезвычайно важно.